Deciding the Number of Clusterings（学习Free Mind知识整理）

最新推荐文章于 2022-04-15 19:00:18 发布

原创最新推荐文章于 2022-04-15 19:00:18 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

数学知识专栏收录该内容

21 篇文章

订阅专栏

本文深入分析了聚类算法的核心概念，包括Meanshift算法的原理及其如何将选择类别数量的问题转化为选择圆圈大小的问题。此外，推荐了一本机器学习经典著作《PatternRecognitionandMachineLearning》作为进阶学习资源，并介绍了AffinityPropagation算法和层次聚类的Q函数应用。通过这些内容，读者可以更全面地理解聚类分析在数据挖掘和机器学习领域的实际应用。

阅读http://freemind.pluskid.org/machine-learning/deciding-the-number-of-clusterings/文章的一些知识整理。

=====================================================================

前面不知道kid在后面会介绍如何确定聚类的类别个数这一部分知识，我在前面也提到了这点，我们再看下这篇里面的解释吧。

=====================================================================

文章前面说明了一个问题"原来的选择的问题转化成了选择树深度的问题"。

先看一下mean sift，（http://www.cnblogs.com/liqizhou/archive/2012/05/12/2497220.html）

在d维空间中，任选一个点，然后以这个点为圆心，h为半径做一个高维球，因为有d维，d可能大于2，所以是高维球。落在这个球内的所有点和圆心都会产生一个向量，向量是以圆心为起点落在球内的点位终点。然后把这些向量都相加。相加的结果就是Meanshift向量。也就是黄色箭头。

再以meanshift向量的终点为圆心，再做一个高维的球。如下图所以，重复以上步骤，就可得到一个meanshift向量。如此重复下去，meanshift算法可以收敛到概率密度最大得地方。也就是最稠密的地方。

最终的结果如下：

推导见上面这篇文章，这里就不啰嗦的复制粘贴了。这样原来选择的问题现在被转化为了选择圆圈的大小的问题。

====================================================================

这里推荐一本机器学习方面的好书，名字是《Pattern Recognition and Machine Learning》，作者是Christopher M.Bishop，据说是机器学习方面的经典著作。我导师也推荐看一下，一直没看，后面补一下PRML。

关于Dirichlet Process这个过程先看下这位网友的通俗解释，http://blog.youkuaiyun.com/xianlingmao/article/details/7342837 其中The Dirichlet Distribution 狄利克雷分布 (PRML 2.2.1)[http://www.xperseverance.net/blogs/2012/03/510/]

=====================================================================

近邻传播聚类Affinity Propagation,(http://www.kylen314.com/archives/425)。

=====================================================================

里面有个slides可以看看。

=====================================================================

最后“对于层次聚类，给出一个Q函数，Q函数最大处即是合适的最深度，由此也不需要任何预设参数即可确定最终的聚类。”作者是这个意思。

=====================================================================