数据集成的三种方法:
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。在实际应用中,数据集成解决3类问题:实体识别、冗余和相关分析,以及数值冲突的检测与处理。
1. 实体识别
实体识别是指从不同数据源识别现实世界的实体,它的任务是统一不同源数据的矛盾之处。例如,一个数据库中的属性名student_id与另一个数据库中的属性名student_number表示的含义是否相同。每个属性的元数据包括属性名、现实含义、数据类型、取值范围,以及处理零或空白时的空值规则。元数据的统一设计不仅可以有效避免模式集成的错误,还能在变换数据时起到一定的作用。
2. 冗余和相关分析
数据集成往往导致数据冗余,分析冗余有很多种方法。首先,可以将数据进行可视化处理,将数据点绘制成图表后趋势和关联会变得清晰起来。除此之外,冗余还可以通过相关性分析方法检验。对于标称数据,可以使用卡方检验;对于数值属性,可以用相关系数度量一个属性在多大程度上蕴含另一个属性,通过相关性分析来删除冗余数据。
3. 数值冲突的检测与处理
对于现实世界的同一实体,由于表达方式、尺度标准或编码的不同常导致元数据的巨大差异。例如,在大学的课程评分系统中,有的学校采用A+~F对成绩进行评分,而有的则采用数值1~100评分。于是在对这两所学校进行数据库合并时,应该将两个系统的评分制度做统一处理,以便进行进一步的数据挖掘。