数据清洗通过分析“脏数据”的产生原因和存在形式,利用数据溯源的思想,从“脏数据”产生的源头开始分析数据,对数据流经环节进行考察,提取数据清洗的规则和策略,对原始数据集应用数据清洗规则和策略来发现“脏数据”并通过特定的清洗算法来清洗“脏数据”,从而得到满足预期要求的数据。具体而言,数据清洗流程包含以下基本步骤:
1.分析数据并定义清洗规则
2.搜寻并标识错误实例
3.纠正发现的错误
4.干净数据回流
5.数据清洗的评判
数据清洗是一项十分繁重的工作,数据清洗在提高数据质量的同时要付出一定的代价,包括投入的时间、人力和物力成本。通常情况下,大数据集的数据清洗是一个系统性的工作,需要多方配合以及大量人员的参与,需要多种资源的支持。