聚类簇如何对用户进行聚类分析？

2020-10-10知识8

数据挖掘题目，K—均值算法应用第一轮A1(2，10)B1（5，8），A3（8，4），B2（7，5），B3（6，4），C2（4，9）C1（1，2），A2（2，5）对应中心分别是（2，10)，（6，6），(1.5，3.5)最后结果：｛A1(2，10)，B1（5，8），C2（4，9）｝｛A3（8，4），B2（7，5），B3（6，4）｝｛C1（1，2），A2（2，5）｝

如何对用户进行聚类分析？图片来源：http：//www.exegetic.biz/blog/2015/10/monthofjulia-day-30-clustering/ 如上图，数据可以被分到红。https：// archive.ics.uci.edu/ml/ datasets/Online+Retail# 。

所有的聚类算法都要指定\ 一，K-Means聚类算法原理k-means 算法接受参数 k然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小.聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的.

聚类算法的每个簇中对象个数相同吗是否可能取决于你的算法是如何实现的。建议你看看weka和matlab的km算法实现。聚类数小于k的原因是聚类过程中出现空簇，如果没有特殊的处理，这个问题是无法在后续的循环中自行解决的。weka的实现是允许输出聚类数小于k的，出现空簇就直接将空簇删除；而matlab的km有一个参数用于解决聚类数小于k的问题，例如直接选择最远离聚类中心的点作为一个新的簇。

聚类分析后，如何对每个簇再进一步的分析？比如我想做个学生体质的聚类，学生的属性有各项运动成绩：立定跳，50米，仰卧起坐等等。聚类完分为3个簇…

密度聚类可以用来分析地理位置聚簇吗聚类分析的职能是建立一种分类方法，它是将一批样品或变量，按照它们在性质上的亲疏程度进行分类.距离的种类很多，其中欧式距离在聚类分析中用得最广，它的表达式如下：其中Xik表示第i个样品的第k个指标的观测值，Xjk表示第j个样品的第k个指标的观测值，dij为第i个样品与第j个样品之间的欧氏距离.若dij越小，那么第i与j两个样品之间的性质就越接近.性质接近的样品就可以划为一类.当确定了样品之间的距离之后，就要对样品进行分类.分类的方法很多，本节只介绍系统聚类法，它是聚类分析中应用最广泛的一种方法.首先将n个样品每个自成一类，然后每次将具有最小距离的两类合并成一类，合并后重新计算类与类之间的距离，这个过程一直持续到所有样品归为一类为止.分类结果可以画成一张直观的聚类谱系图.应用系统聚类法进行聚类分析的步骤如下：①确定待分类的样品的指标；②收集数据；③对数据进行变换处理（如标准化或规格化）；④使各个样品自成一类，即n个样品一共有n类；⑤计算各类之间的距离，得到一个距离对称矩阵，将距离最近的两个类并成一类；⑥并类后，如果类的个数大于1，那么重新计算各类之间的距离，继续并类，直至所有样品归为一类为止；⑦最后绘制系统聚类谱系图，按不同的分类。

有哪些常用的聚类算法？ https：//www. kdnuggets.com/2018/06/5 -clustering-algorithms-data-scientists-need-know.html 翻译：非线性审校：wanting 中文翻译首发于“集智学园”公众号

阅读全文

聚类 簇 如何对用户进行聚类分析？

随机阅读

聚类簇如何对用户进行聚类分析？