ZKX's LAB

k-means聚类算法优缺点? 聚类效果 评价指标

2021-04-26知识7

关于聚类分析 1。聚类分析的特点 聚类分析(cluster analysis)是根据事物本身的特性研究个体的一种方法,目的在于将相似的事物归类。它的原则是同一类中的个体有较大的相似性,不同类。

如何评价聚类结果的好坏 常见的聚类评测指标有纯度2113和 F 值,其中 F 值更为5261常用。F 值的更普适的应用是信息检4102索的结果,其计算1653包括了两个指标:召回率(Recall Rate)和准确率(Precision Rate)。召回率的定义为:检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;准确率的定义为:检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;F 值为两者的调和平均值。如果不知道预定义类与聚类的对应关系,就需要得到每一个预定义类与每一个聚类之间的 F 值,其计算方法如下:precision[i][j]=预定义第 i 类并被分配到第 j 个聚类的文档数/第 j 个聚类中的文档数recall[i][j]=预定义第 i 类并被分配到第 j 个聚类的文档数/预定义第 i 类的文档数f[i][j]=2*precision[i][j]*recall[i][j]/(precision[i][j]+recall[i][j])这样就得到了每一个预定义类与每一个聚类之间的 F 值,这在逻辑上构成了二分图关系,边权即为 F 值,目标是找到一个二分图完美匹配使得如下加权平均 F 值最大:F-measure=sum(f[i][j]*第 i 个预定义类的文档数)/总文档数方法为最大费用最大流或者 KM 算法。如果数据量较小,直接枚举匹配也是可以接受的。

评价一个聚类质量算法需要哪些值 1)芮氏指标(简称RI)2))归一化互信息(简称NMI)

#聚类效果 评价指标

随机阅读

qrcode
访问手机版