谱聚类算法的划分准则
用于数据挖掘的聚类算法有哪些,各有何优势? 如果真要做全面介绍的话,有可能是一部专著的篇幅。即使是做综述性的介绍,一篇三五十页的论文也可以写成…
谱聚类算法的算法步骤 谱聚类算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的权值,这样就得到一个基于相似度的无向加权图G(V,E),于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。虽然根据不同的准则函数及谱映射方法,谱聚类算法有着不同的具体实现方法,但是这些实现方法都可以归纳为下面三个主要步骤:1)构建表示对象集的相似度矩阵W;2)通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与特征向量,构建特征向量空间;3)利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类。上面的步骤只是谱聚类算法的一个总体框架,由于划分准则、相似度矩阵计算方法等因素的差别,具体的算法实现同样会有所差别,但其本质依然是图划分问题的连续放松形式。
谱聚类算法是什么领域的知识?
谱聚类算法的典型的算法 根据谱聚类算法所使用的划分准则,可以把算法分为二路谱聚类算法和多路谱聚类算法,前者使用2-way划分准则而后者使用k-way划分准则。PF算法。Perona和Freeman提出用相似度矩阵W最大特征值所对应的特征向量进行聚类指出对于块对角相似矩阵,特征向量中非零值对应的点属于同一类,零值对应的点属于另外一类。SM算法。Meli?指出Ncut和MNcut的差异之处仅在于所使用的谱映射不同。多路规范割集准则在实际应用中合理有效,但其优化问题通常难以解决。Shi和Malik认为第二小特征值对应的特征向量,即Fiedler向量包含了图的划分信息,根据启发式规则在此向量中寻找划分点i使在该点上得到的Ncut(A,B)值最小,最后把向量中的值与Ncut准则函数的最小值进行比较,大于等于该值的点划分为一类,小于该值的点则划分到另外一类。SLH算法。SLH重定位算法计算相似度矩阵W的前k个特征向量,参数k需要事先指定。KVV算法。根据启发式规则在Fiedler向量中寻找划分点i使在该点上得到的Rcut(A,B)值最小的划分点,与SM算法相似;不同之处仅在于SM算法是寻找使Ncut(A,B)值最小的划分点。虽然在实际问题中KVV算法存在运行速度相对较慢的缺陷,但是算法减少了过分割的可能性。Mcut算法。Ding根据。
谱聚类算法的介绍 谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量,然后选择合适 的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉、VLS I 设计等领域,最近才开始用于机器学习中,并迅速成为国际上机器学习领域的研究热点。谱聚类算法建立在图论中的谱图理论基础上,其本质是将聚类问题转化为图的最优划分问题,是一种点对聚类算法,对数据聚类具有很好的应用前景。