聚类分析评价标准:
常用的评价聚类分析能力的几个标准如下:
(1)可伸缩性(Scalability):处理大量数据的能力。许多聚类分析方法在小于1000个数据对象的小数据集上工作得很好,但是随着数据对象的增加,这些聚类分析方法的处理能力就会下降。因此,一个好的聚类分析方法需要能处理大量的数据集。
(2)处理不同类型属性的能力:许多聚类分析方法只能聚类数值型的数据。但是,在数据挖掘领域,数据类型是多样的。聚类分析作为一种分析工具,应该能够对不同类型数据进行分析,从而提供一个普适的模型。
(3)用于决定输入参数的领域知识最少:许多聚类分析方法在聚类分析中要求用户输入一定的参数,如希望产生类的数目,而且聚类分析结果对输入参数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来说,更是如此。要求用户输入参数不仅加重了用户的负担,也使得聚类分析的质量难以控制。
(4)能够发现任意形状聚类的能力:许多聚类分析方法采用欧氏距离来决定相似度,这种度量方式趋向于发现球(超球)簇,而现实中有大量各类形状的簇,因此需要聚类分析能够发现任意形状的簇。
(5)处理噪声数据的能力:现实的数据中不可避免地存在各类噪声,如孤立点、空缺、未知数据或错误数据等。这些噪声的出现不应该对聚类分析产生较强的影响。有些聚类分析方法对噪声是敏感的,可能导致低质量的聚类分析结果。
(6)对于输入数据的顺序不敏感:有些聚类分析方法对于输入数据的顺序是敏感的。例如,同一个数据集,当以不同的顺序提交给同一个方法时,可能生成差别很大的聚类分析结果。
(7)处理高维数据的能力:一个数据库或数据仓库可能包含若干维或若干属性。许多聚类分析方法擅长处理低维的数据,可能只涉及两维到三维。但是在高维情况下,数据分布可能很稀疏,所以对这样的数据对象进行聚类分析是一个具有挑战性的课题。
(8)满足用户的约束条件:在现实世界中,可能需要在各种约束条件下进行聚类分析。要找到既满足特定的约束,又具有良好聚类特性的数据分组是一项具有挑战性的任务。
(9)聚类分析结果的可解释性:聚类分析是为分析数据服务的,人们期望通过聚类分析从数据中抽取某种特定语义的解释,也就是说,聚类分析的结果应该是可解释的、可理解的和可用的。