• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

数据清理的方法

作者:云创智学|发布时间:2022-01-24 10:34:33.0|来源:云创智学

数据清理的方法

1、填充缺失值

大部分情况下,缺失的值必须要用手工来进行清理。当然,某些缺失值可以从他本身数据源或其它数据源中推导出来,可以用平均值、最大值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。

2、修改错误值

用统计分析的方法识别错误值或异常值,如数据偏差、识别不遵守分布的值,也可以用简单规则库检查数据值,或使用不同属性间的约束来检测和清理数据。

3、消除重复记录

数据库中属性值相同的情况被认定为是重复记录。通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录。

4、数据的不一致性

从多数据源集成的数据语义会不一样,可供定义完整性约束用于检查不一致性,也可通过对数据进行分析来发现他们之间的联系,从而保持数据的一致性。


联系方式
企业微信