如何评价聚类效果如何评价聚类结果的好坏

2021-04-10知识12

如何评价一个k-means聚类质量算法一，K-Means聚类算法2113原理k-means 算法接受参数 k然后将事先输入的n个数5261据对象划4102分为k个聚类以便使得所获得的聚类满足：1653同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。假设要把样本集分为c个类别，算法描述如下：（1）适当选择c个类的初始中心；（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；（3）利用均值等方法更新该类的中心值；（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。

如何评价聚类结果的好坏常见的聚类评测指标有纯度2113和 F 值，其中 F 值更为5261常用。F 值的更普适的应用是信息检4102索的结果，其计算1653包括了两个指标：召回率（Recall Rate）和准确率（Precision Rate）。召回率的定义为：检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率；准确率的定义为：检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；F 值为两者的调和平均值。如果不知道预定义类与聚类的对应关系，就需要得到每一个预定义类与每一个聚类之间的 F 值，其计算方法如下：precision[i][j]=预定义第 i 类并被分配到第 j 个聚类的文档数/第 j 个聚类中的文档数recall[i][j]=预定义第 i 类并被分配到第 j 个聚类的文档数/预定义第 i 类的文档数f[i][j]=2*precision[i][j]*recall[i][j]/(precision[i][j]+recall[i][j])这样就得到了每一个预定义类与每一个聚类之间的 F 值，这在逻辑上构成了二分图关系，边权即为 F 值，目标是找到一个二分图完美匹配使得如下加权平均 F 值最大：F-measure=sum(f[i][j]*第 i 个预定义类的文档数)/总文档数方法为最大费用最大流或者 KM 算法。如果数据量较小，直接枚举匹配也是可以接受的。

用于数据挖掘的聚类算法有哪些，各有何优势？如果真要做全面介绍的话，有可能是一部专著的篇幅。即使是做综述性的介绍，一篇三五十页的论文也可以写成…

#怎样评价聚类分析的效果 #如何评价聚类效果

阅读全文

如何评价聚类效果 如何评价聚类结果的好坏

随机阅读

如何评价聚类效果如何评价聚类结果的好坏