如何评价聚类结果的好坏 聚类定义回顾:把一个文档集合根据文档的相似性把文档分成若干类,究竟分成多少类,这个要取决于文档集合里文档自身的性质。回答1:基于不同算法,会有不同指标,通常较。
企业信息化的评价指标有哪些,如何对其进行聚类分析? 随着企业信息化建设的深入发展,国内已有一些学者开始研究企业信息化的评价问题,但对中小企业信息化水平评价问题却较少涉足。而企业信息化的评价工作和建设工作是同等重要的,科学合理的评价对于以后进一步建设起到反馈和控制作用,从而使企业信息化工程成为一个闭环系统。据统计,我国中小企业约有1 500 万家,国民经济生产总值的60%是由中小企业创造的,已经成为国民经济的支柱,中小企业平均每年增长速度超过20%。因此中小企业信息化是我国经济腾飞的关键所在。一般来说,企业信息化的评价包括企业信息化水平评价和企业信息化效益评价两个方面。如何评价企业信息化水平及效益,是企业信息化的关键技术之一。但由于中小企业技术薄弱,资金不足,人员素质偏低,信息化重视程度不够,不能照搬大型企业的信息化水平指标对其进行评价。所以,建立中小企业信息化水平评价指标体系是非常必要的。本文主要从企业信息化水平指标体系入手来建立中小企业信息化水平评价指标体系http://www.studa.net/qiye/080808/16083550.html
如何评价聚类结果的好坏 常见的聚类评测指标有纯度2113和 F 值,其中 F 值更为5261常用。F 值的更普适的应用是信息检4102索的结果,其计算1653包括了两个指标:召回率(Recall Rate)和准确率(Precision Rate)。召回率的定义为:检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;准确率的定义为:检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;F 值为两者的调和平均值。如果不知道预定义类与聚类的对应关系,就需要得到每一个预定义类与每一个聚类之间的 F 值,其计算方法如下:precision[i][j]=预定义第 i 类并被分配到第 j 个聚类的文档数/第 j 个聚类中的文档数recall[i][j]=预定义第 i 类并被分配到第 j 个聚类的文档数/预定义第 i 类的文档数f[i][j]=2*precision[i][j]*recall[i][j]/(precision[i][j]+recall[i][j])这样就得到了每一个预定义类与每一个聚类之间的 F 值,这在逻辑上构成了二分图关系,边权即为 F 值,目标是找到一个二分图完美匹配使得如下加权平均 F 值最大:F-measure=sum(f[i][j]*第 i 个预定义类的文档数)/总文档数方法为最大费用最大流或者 KM 算法。如果数据量较小,直接枚举匹配也是可以接受的。