数据清理的方法:
1、填充缺失值
大部分情况下,缺失的值必须要用手工来进行清理。当然,某些缺失值可以从他本身数据源或其它数据源中推导出来,可以用平均值、最大值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。
2、修改错误值
用统计分析的方法识别错误值或异常值,如数据偏差、识别不遵守分布的值,也可以用简单规则库检查数据值,或使用不同属性间的约束来检测和清理数据。
3、消除重复记录
数据库中属性值相同的情况被认定为是重复记录。通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录。
4、数据的不一致性
从多数据源集成的数据语义会不一样,可供定义完整性约束用于检查不一致性,也可通过对数据进行分析来发现他们之间的联系,从而保持数据的一致性。