数据挖掘数据集成的三种方法

作者：云创智学|发布时间：2022-01-12 13:44:25.0|来源：云创智学

数据集成的三种方法：

数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。在实际应用中，数据集成解决3类问题：实体识别、冗余和相关分析，以及数值冲突的检测与处理。

1. 实体识别

实体识别是指从不同数据源识别现实世界的实体，它的任务是统一不同源数据的矛盾之处。例如，一个数据库中的属性名student_id与另一个数据库中的属性名student_number表示的含义是否相同。每个属性的元数据包括属性名、现实含义、数据类型、取值范围，以及处理零或空白时的空值规则。元数据的统一设计不仅可以有效避免模式集成的错误，还能在变换数据时起到一定的作用。

2. 冗余和相关分析

数据集成往往导致数据冗余，分析冗余有很多种方法。首先，可以将数据进行可视化处理，将数据点绘制成图表后趋势和关联会变得清晰起来。除此之外，冗余还可以通过相关性分析方法检验。对于标称数据，可以使用卡方检验；对于数值属性，可以用相关系数度量一个属性在多大程度上蕴含另一个属性，通过相关性分析来删除冗余数据。

3. 数值冲突的检测与处理

对于现实世界的同一实体，由于表达方式、尺度标准或编码的不同常导致元数据的巨大差异。例如，在大学的课程评分系统中，有的学校采用A+~F对成绩进行评分，而有的则采用数值1~100评分。于是在对这两所学校进行数据库合并时，应该将两个系统的评分制度做统一处理，以便进行进一步的数据挖掘。

数据挖掘数据集成的三种方法

作者：云创智学|发布时间：2022-01-12 13:44:25.0|来源：云创智学

友情链接

关于云创

联系我们

数据挖掘 数据集成的三种方法

作者：云创智学|发布时间：2022-01-12 13:44:25.0|来源：云创智学

推荐课程

大数据与人工智能就业初级班

大数据与人工智能就业高级班

大数据与人工智能就业中级班

人工智能导论

人工智能图像处理应用

大数据分析挖掘实训课

大数据实战能力提升

ChatGPT应用教学

大数据实战能力提升+金牌服务

云计算职业技能竞赛初级课程（视频资源）

大数据平台技术

大数据应用实训工程实战

云计算职业技能竞赛中级课程（带实验平台实战资源）

云计算职业技能竞赛高级资源增强包

云计算职业技能竞赛中级资源增强包

云计算职业技能竞赛初级资源增强包

云计算职业技能竞赛初级课程/（带实验平台实战资源）

友情链接

关于云创

联系我们

数据挖掘数据集成的三种方法