1、排重清洗
数据排重是指在数据中查找和删除重复内容,而不会影响其保真度或完整性。数据排重需要技巧,首先一定要有信息去识别一条数据的唯一性,也就是类似数据库中的主键,如果唯一性都无法识别,排重也就无所依据。
2、去除不合理值
不合理数据指在业务系统中收录的部分数据存在不合理性,例如一个大学生的实际年龄不能为5岁。一个员工的年龄也不可能超过200岁,QQ信息上好友的年龄为0岁等,导致此类问题的原因可能是业务系统操作失误,也有可能是用户为进行信息隐藏而故意错填数据。对于不合理的数据,在数据采集时,若该数据不是很重要,建议直接删除,否则需要进行人工干预或者引入更多的数据源进行关联识别。
3、修正矛盾内容
源端系统在提供数据时,存在部分信息可以相互验证的校验,例如,在某教务系统中,教师任课的编号由“学期+教工号+课程代码+序号”构成,则该号码能够有效地验证当前教师任课信息中的学期信息、教师信息、课程信息等。同理,身份证号码也能够有效验证当前人员的出生年月,从而能够推算该人员的年龄。
源端数据存在矛盾且可以利用规则判定的情况,能够通过ETL工具的规则设置进行查找发现“脏”数据,从而达到更加容易清洗的目的。