谱聚类为什么要用到kmeans
谱聚类算法的面临的问题 尽管谱聚类具有坚实的理论基础,相对于其它聚类方法具有许多优势,在实践中的应用领域在不断扩展,取得了不错的效果[38],但是它仍然需要改进,尤其在下述几个方面:如何创建相似度矩阵W,使其更加真实地反映数据点之间的近似关系,使得相近点之间的相似度更高,相异点之间的相似度更低,是谱聚类算法必须要解决的一个问题。高斯相似函数(Wij=exp(-|xi-xj|^2/2σ^2))是经典谱聚类算法中计算两点间相似度的常用方法,虽然该函数使原始的谱聚类算法取得了一些成功,但尺度参数σ的选取问题使该函数具有明显的局限性。NJW算法[7]通过预先指定几个尺度参数σ的值,分别执行谱聚类,最后选取使聚类结果最好的σ作为参数,这种做法消除了尺度参数σ选取的人为因素,却增加了运算时间。近年来,为了避免参数的选择问题,有学者提出在计算相似度时不使用高斯核函数。如Gong 等人[41]借鉴Wang Fei和Zhang Changshui[42]在半监督中使用的方法,将每个点的k 近邻对该点进行线性近似表示时所占的权重作为两点间的相似度。通过求n 个二次规划问题,就可以求得相似度矩阵W,降低了谱聚类算法对参数的敏感性,使算法更稳定。在谱聚类算法的聚类过程中需要求解矩阵的特征值与特征。
如何评价聚类结果的好坏? 一直就觉得聚类,甚至是无监督学习结果的评价方法在理论上不那么令人信服。不像有监督学习那样可以有一…
用于数据挖掘的聚类算法有哪些,各有何优势? 这个问题我也想过,想的不太系统。比较分类算法的话,大概考虑这几个维度:时间空间复杂度,鲁棒性,参数…