数据交换的三种方式:
在进行数据挖掘前,须对数据集进行相应的数据变换。常用的变换策略如下。
1. 数据规范化
数据规范化的目的是将数据按比例缩放,使得属性之间的权值适合数据挖掘。例如,统计身高信息的度量单位是不同的,若在数据挖掘中把height属性的度量单位从米变成英寸,则可能导致完全不同的结果。常见的数据规范化方法包括最小-最大规范化、z-score分数规范化、小数定标规范化等。
2. 数据离散化
数据离散化是将数值属性的原始值用区间标签或概念标签替换的过程,它可以将连续属性值离散化。连续属性离散化的实质是将连续属性值转换成少数有限的区间,从而有效地提高数据挖掘工作的计算效率。
3. 概念分层
概念分层的主要思想是将低层概念的集合映射到高层概念的集合,它广泛应用于标称数据的转换。如现有某个数据库需要对关于地理位置location的属性集进行概念分层,其中属性内容包括街道street、国家country、城市city和省份province_or_state。首先,对每个属性不同值的个数进行统计分析,并将其按照升序进行排列。其次,根据排列好的属性顺序,自顶向下进行分层。根据大家的常规认识,对属性的全序排列结果为街道street<城市city<省份province_or_state<国家country,即街道street属性在最顶层,国家country属性在最底层。最后,用户根据产生的分层,选择合适的属性代替该属性集。