在各类数据源系统中,缺失值的问题时常发生,在一定程度上,造成缺失值的原因在于系统的不完备性和故障。具体原因较多,主要分为系统原因和人为原因。
1、确定范围
计算源端数据中字段缺失值比例,之后根据缺失率和重要性分别制定策略。对于重要性高和缺失率高的数据,可采取数据从其他渠道补全、使用其他字段计算获取和去掉字段,并在结果中制定策略进行清洗;对于重要性高但缺失率较低的数据,可采取计算填充、经验或业务知识估计等策略进行清洗;对于重要性低、缺失率高的数据,可采取去除该字段的策略进行清洗;对于重要性低且缺失率低的数据,可以不做处理。
2、去除重要性低的字段
重要性低的字段,且缺失严重,可以采取将数据抽取的结果放入一中间临时库中,在数据清洗之前,先备份临时库数据,然后直接删除不需要的字段。
3、填充缺失内容
某些缺失值补齐采取一定的值去填充缺失项,从而使数据完备化。通常基于统计学原理,根据决策表中其余对象取值的分布情况来对一个空值进行填充,例如用其属性的平均值来进行补充等。