聚类分析评价标准

聚类分析评价标准：

常用的评价聚类分析能力的几个标准如下：

（1）可伸缩性（Scalability）：处理大量数据的能力。许多聚类分析方法在小于1000个数据对象的小数据集上工作得很好，但是随着数据对象的增加，这些聚类分析方法的处理能力就会下降。因此，一个好的聚类分析方法需要能处理大量的数据集。

（2）处理不同类型属性的能力：许多聚类分析方法只能聚类数值型的数据。但是，在数据挖掘领域，数据类型是多样的。聚类分析作为一种分析工具，应该能够对不同类型数据进行分析，从而提供一个普适的模型。

（3）用于决定输入参数的领域知识最少：许多聚类分析方法在聚类分析中要求用户输入一定的参数，如希望产生类的数目，而且聚类分析结果对输入参数十分敏感。参数通常很难确定，特别是对于包含高维对象的数据集来说，更是如此。要求用户输入参数不仅加重了用户的负担，也使得聚类分析的质量难以控制。

（4）能够发现任意形状聚类的能力：许多聚类分析方法采用欧氏距离来决定相似度，这种度量方式趋向于发现球（超球）簇，而现实中有大量各类形状的簇，因此需要聚类分析能够发现任意形状的簇。

（5）处理噪声数据的能力：现实的数据中不可避免地存在各类噪声，如孤立点、空缺、未知数据或错误数据等。这些噪声的出现不应该对聚类分析产生较强的影响。有些聚类分析方法对噪声是敏感的，可能导致低质量的聚类分析结果。

（6）对于输入数据的顺序不敏感：有些聚类分析方法对于输入数据的顺序是敏感的。例如，同一个数据集，当以不同的顺序提交给同一个方法时，可能生成差别很大的聚类分析结果。

（7）处理高维数据的能力：一个数据库或数据仓库可能包含若干维或若干属性。许多聚类分析方法擅长处理低维的数据，可能只涉及两维到三维。但是在高维情况下，数据分布可能很稀疏，所以对这样的数据对象进行聚类分析是一个具有挑战性的课题。

（8）满足用户的约束条件：在现实世界中，可能需要在各种约束条件下进行聚类分析。要找到既满足特定的约束，又具有良好聚类特性的数据分组是一项具有挑战性的任务。

（9）聚类分析结果的可解释性：聚类分析是为分析数据服务的，人们期望通过聚类分析从数据中抽取某种特定语义的解释，也就是说，聚类分析的结果应该是可解释的、可理解的和可用的。

友情链接