数据挖局数据清洗:
数据清理是进行数据预处理的首要方法,它通过识别或删除离群点来光滑噪声数据,并填补缺失值,从而“清理”数据。数据清理的主要任务是处理缺失值、光滑噪声数据。
1. 处理缺失值
处理缺失值通常包括以下几类方法:
(1)删除元组
(2)人工填写缺失值
(3)中心度量填补
(4)多重填补
(5)使用最可能的值填补
2. 光滑噪声数据
光滑噪声数据主要有以下几种方法:
(1)分箱。其主要思想为每一个数据与它的“近邻”数据应该是相似的,因此将数据用其近邻(“箱”或“桶”)替代,这样既可以光滑有序数据值,还能在一定程度上保持数据的独有特点。
(2)回归。回归技术是通过一个映像或函数拟合多个属性数据,从而达到光滑数据的效果。线性回归是寻找一条“最佳”直线来拟合多个属性,从而使用其中的某些属性预测其他属性。
(3)离群点分析。聚类可以将相似的值归为同一“簇”,因此主要使用聚类等技术来检测离群点。聚类技术将在8.3节展开讨论。