如何评价聚类结果的好坏？

2020-10-17知识27

如何评价聚类结果的好坏一直就觉得聚类，甚至是无监督学习结果的评价方法在理论上不那么令人信服。不像有监督学习那样可以有一事一有二是二的说这个东西分对了就是分对了，错了就是错了。除了用眼睛看之外，有什么比较靠谱的聚类评价结果吗？

如何评价聚类结果的好坏？

如何评价聚类结果的好坏用方差分析来判定聚类结果好坏，类与类之间是否差异性显著，呵呵~你的采纳是我前进的动力，还有不懂的地方，请继续“追问”。如你还有别的问题，可另外向我求助；答题不易，互相理解，互相帮助。

如何评价聚类结果的好坏？

如何评价聚类结果的好坏没有靠谱的方法。常规的 index，都是有先验假设的，能不能用，好不好用，要明白后面的假设，结合对自己数据的理解，来判断。

如何评价聚类结果的好坏？

聚类结果怎么实现群落按照物种相似形组成进行聚类分析，可以用树状图较好的表现物种的组成关系。受到很多植被学家的重视。这里以R软件实现聚类分析为例。如果按照物种组成的相似性做聚类。

如何评价聚类结果的好坏聚类定义回顾：把一个文档集合根据文档的相似性把文档分成若干类，究竟分成多少类，这个要取决于文档集合里文档自身的性质。回答1：基于不同算法，会有不同指标，通常较通用的应该一定都会有Entropy 熵和 Accuracy，（Accuracy 里可以包含了precision，recall，f-measure.）假设我们使用k-means算法，通常会加上SSE（Sum of squared errors）平方误差和，其他算法会有不同指标。总体思想为一个cluster聚类内的数据点聚集在一起的密度越高，圈子越小，离centroid中心点越近，那么这个聚类的总体质量相对来说就会越好。回答2：聚类的评估也需要预先标注，把相似的数据放到一个堆（文件）里。算法完成后再进行测试，主要测试宏观准确度，宏观召回率，宏观混杂度。回答3：可以参考分类的precision和recall来进行评价，使用pair-wised 的方式？进行计算，比如任选取两个结果，看它们是否应该在一起，在一起就是T，不在一起就是F。其他的方法有Rand Value和Purity，其中Rand Value也是基于pair-wised的。具体聚类效果评估方法列举介绍：评价方法一：puritypurity方法是极为简单的一种聚类评价方法，只需计算正确聚类的文档数占总文档数的比例：其中Ω={ω1，ω2，.，ωK}。

如何评价聚类结果的好坏常见的聚类评测指标有纯度2113和 F 值，其中 F 值更为5261常用。F 值的更普适的应用是信息检4102索的结果，其计算1653包括了两个指标：召回率（Recall Rate）和准确率（Precision Rate）。召回率的定义为：检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率；准确率的定义为：检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；F 值为两者的调和平均值。如果不知道预定义类与聚类的对应关系，就需要得到每一个预定义类与每一个聚类之间的 F 值，其计算方法如下：precision[i][j]=预定义第 i 类并被分配到第 j 个聚类的文档数/第 j 个聚类中的文档数recall[i][j]=预定义第 i 类并被分配到第 j 个聚类的文档数/预定义第 i 类的文档数f[i][j]=2*precision[i][j]*recall[i][j]/(precision[i][j]+recall[i][j])这样就得到了每一个预定义类与每一个聚类之间的 F 值，这在逻辑上构成了二分图关系，边权即为 F 值，目标是找到一个二分图完美匹配使得如下加权平均 F 值最大：F-measure=sum(f[i][j]*第 i 个预定义类的文档数)/总文档数方法为最大费用最大流或者 KM 算法。如果数据量较小，直接枚举匹配也是可以接受的。

#无监督学习 #聚类

阅读全文

如何评价聚类结果的好坏？

随机阅读