• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

关联规则概念
关联规则概念最早是由Agrawal等人在1993年首先提出的,最初的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。Agrawal等人于1993年提出了关联规则挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。
作者:云创智学 来源:云创智学 发布时间:2022-03-10 09:44:21
聚类的目的
聚类的目的通过数据间的相似性把数据归类,并根据数据的概念描述,来制定对应的策略。电商例子在电子商务领域,电商可以对有相似浏览行为的客户进行归类,从而找出他们的共同特征,达到充分理解客户需求的目的,并提供相适应的客户服务。
作者:云创智学 来源:云创智学 发布时间:2022-03-10 09:42:01
聚类的过程
聚类的过程:把相似数据归并到一类的过程,形成同类对象具有共同特征,不同类对象之间的有显著区别,直到所有数据的归类都完成。特征性描述:对象的共同特征区别性描述:不同类对象之间的区别概念描述:特征性描述和区别性描述
作者:云创智学 来源:云创智学 发布时间:2022-03-10 09:41:15
模型的过分拟合
模型的过分拟合:1.模型过分拟合的形成所谓模型过分拟合是指训练数据拟合度过高的模型。2.处理决策树归纳中的过分拟合在这介绍两种决策树归纳上避免过分拟合的策略:(1)先剪枝(提前终止)(2)后剪枝(过程修剪)
作者:云创智学 来源:云创智学 发布时间:2022-03-10 09:39:11
分类基本概念
分类基本概念:定义:分类是一种重要的数据分析形式。根据重要数据类的特征向量值及其他约束条件,建立分类函数或分类模型。分类模型可以用于描述性建模和预测性建模。
作者:云创智学 来源:云创智学 发布时间:2022-03-10 09:37:38
数据挖掘需要解决什么问题
数据挖掘需要解决什么问题:1.算法延展性算法延展性即为算法弹性,随着数据产生、采集技术的快速进步,以GB、TB、PB(1GB=1024MB,1TB=1024GB,1PB=1024TB)为单位的数据集越来越普遍。2.高维性在以前的数据库构成中只有少量属性的数据集,现在大数据集群构成中是具有成百上千属性的数据集。3.多种而复杂数据在传统数据分析方法里只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。4.数据的所有权与分布现在经常会有这样的状况,需要分析的数据并非存放在一个站点,或归属一个机构,而是地理或空间分布在属于多个机构的资源中。5.非传统的分析统计方法的传统方法是基于先提出一种假设然后检验,即提出一种假设,再设计实验来收集数据,然后以假设为基础分析数据。
作者:云创智学 来源:云创智学 发布时间:2022-03-09 13:36:53
数据挖掘现状及发展趋势
数据挖掘现状及发展趋势:就目前而言,大数据的来源是通过各种数据采集器、数据库、开源的数据发布、GPS信息、网络痕迹(搜索记录、购物等)、传感器收集、用户保存等等结构化、半结构化、非结构化的数据。数据挖掘发展第一,语言标准化,使语言描述形式化、标准化。第二,实施标准化,即真正的可视化数据挖掘,在知识发现过程人机交互更便捷。第三,Web数据挖掘,建立DMKD(数据挖掘和知识发现)服务器。第四,实现多媒体数据挖掘,多媒体数据是一种多维的、半结构化、非结构化等形式的数据。
作者:云创智学 来源:云创智学 发布时间:2022-03-09 13:35:30
数据的预处理
数据的预处理:1.聚集聚集是将两个或多个对象合并成单个对象。2.抽样抽样方法渐进抽样3.维归约4.维灾难5.维归约的线性代数技术
作者:云创智学 来源:云创智学 发布时间:2022-03-09 13:34:28
数据的质量
数据的质量:1.什么是测量误差和数据收集误差测量误差是测量中测量结果与实际值之间的差值叫误差。数据收集误差是指收集数据时遗漏数据对象或属性值,或包含了其他数据对象等情况。2.什么是噪声噪声是从物理角度而言,噪声是波形不规则的声音。3.什么是精度和准确率精度(同一个基本量)重复测量值之间的近似程度,一般用值集合的标准差度量。准确率从实验角度是指在一定实验条件下的多个测定值中,满足限定条件的测定值所占的比例,常用符合率来表示。4.遗漏删除数据对象或属性估计遗漏值5.离群点离群点又称歧义值或异常值,离群点从数理统计角度是指一个时间序列中,远离序列的一般水平的极端大值和极端小值。6.重复数据时效性相关性
作者:云创智学 来源:云创智学 发布时间:2022-03-09 13:33:03
数据的概述
数据的概述:数据挖掘质量的高低与数据有着密切的关系,本节主要探索性学习一些数据相关的知识。数据类型、数据质量、数据挖掘前预处理、数据分析数据集是数据对象的集合。数据对象又叫做点、记录、向量、事件、案例、样本、模式、观测或实体。数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)的属性描述。属性又称为维度、变量、特性、字段、特征等。1.属性(1)区分属性可通过属性可能取值的个数来判断。(2)非对称的属性2.数据集的一般特性数据集一般具有三个特性,分别是维度、稀疏性、分辨率三个,它们对数据挖掘有重要影响。3.较常见的数据类型
作者:云创智学 来源:云创智学 发布时间:2022-03-09 13:32:04
联系方式
企业微信