
pluskid's clustering
文章平均质量分 82
Savitch
I have nothing to offer but blood toil tears and sweat
展开
-
漫谈 Clustering (2): k-medoids
本文是“漫谈 Clustering 系列”中的第 2 篇,参见本系列的其他文章。 上一次我们了解了一个最基本的 clustering 办法 k-means ,这次要说的 k-medoids 算法,其实从名字上就可以看出来,和 k-means 肯定是非常相似的。事实也确实如此,k-medoids 可以算是 k-means 的一个变种。 k-medoids 和 k-means 不一样的地方转载 2014-04-18 17:35:03 · 559 阅读 · 0 评论 -
漫谈 Clustering (番外篇): Dimensionality Reduction
http://blog.pluskid.org/?p=290 本文是“漫谈 Clustering 系列”中的第 7 篇,参见本系列的其他文章。 由于总是有各种各样的杂事,这个系列的文章竟然一下子拖了好几个月,(实际上其他的日志我也写得比较少),现在决定还是先把这篇降维的日志写完。我甚至都以及忘记了在这个系列中之前有没有讲过“特征”(feature)的概念了,这里不妨再稍微提一下。机转载 2014-04-18 18:57:40 · 383 阅读 · 0 评论 -
漫谈 Clustering (追忆篇): Regularized GMM
我之前写过一篇介绍 Gaussian Mixture Model (GMM) 的文章,并在文章里贴了一段 GMM 实现的 Matlab 示例代码,然后就不断地有人来问我关于那段代码的问题,问得最多的就是大家经常发现在跑那段代码的时候估计出来的 Covariance Matrix 是 singular 的,所以在第 96 行求逆的时候会挂掉。这是今天要介绍的主要话题,我会讲得罗嗦一点,把关于那篇转载 2014-04-18 18:54:12 · 469 阅读 · 0 评论 -
漫谈 Clustering (番外篇): Expectation Maximization
转:http://blog.pluskid.org/?p=81 本文是“漫谈 Clustering 系列”中的第 5 篇,参见本系列的其他文章。 Expectation Maximization (EM) 是一种以迭代的方式来解决一类特殊最大似然 (Maximum Likelihood) 问题的方法,这类问题通常是无法直接求得最优解,但是如果引入隐含变量,在已知隐含变量的值的情况下,就转载 2014-04-18 18:55:13 · 355 阅读 · 0 评论 -
漫谈 Clustering (4): Spectral Clustering
转: 本文是“漫谈 Clustering 系列”中的第 6 篇,参见本系列的其他文章。 如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类实际上可以说是一“类”算法。 Spectral Clustering 和传统的转载 2014-04-18 18:56:19 · 347 阅读 · 0 评论 -
漫谈 Clustering (5): Hierarchical Clustering
本文是“漫谈 Clustering 系列”中的第 8 篇,参见本系列的其他文章。 系列不小心又拖了好久,其实正儿八经的 blog 也好久没有写了,因为比较忙嘛,不过觉得 Hierarchical Clustering 这个话题我能说的东西应该不多,所以还是先写了吧(我准备这次一个公式都不贴 )。Hierarchical Clustering 正如它字面上的意思那样,是层次化转载 2014-04-18 19:00:40 · 366 阅读 · 0 评论 -
漫谈 Clustering (1): k-means
本文是“漫谈 Clustering 系列”中的第 1 篇,参见本系列的其他文章。 好久没有写 blog 了,一来是 blog 下线一段时间,而租 DreamHost 的事情又一直没弄好;二来是没有太多时间,天天都跑去实验室。现在主要折腾 Machine Learning 相关的东西,因为很多东西都不懂,所以平时也找一些资料来看。按照我以前的更新速度的话,这么长时间不写 blog 肯定是要被闷转载 2014-04-18 17:21:13 · 289 阅读 · 0 评论 -
漫谈 Clustering (3): Gaussian Mixture Model
本文是“漫谈 Clustering 系列”中的第 4 篇,参见本系列的其他文章。 上一次我们谈到了用 k-means 进行聚类的方法,这次我们来说一下另一个很流行的算法:Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于转载 2014-04-18 18:51:55 · 371 阅读 · 0 评论 -
漫谈 Clustering (番外篇): Vector Quantization
zhuhttp://blog.pluskid.org/?p=57 本文是“漫谈 Clustering 系列”中的第 3 篇,参见本系列的其他文章。 在接下去说其他的聚类算法之前,让我们先插进来说一说一个有点跑题的东西:Vector Quantization 。这项技术广泛地用在信号处理以及数据压缩等领域。事实上,在 JPEG 和 MPEG-4 等多媒体压缩格式里都有 VQ 这一步。转载 2014-04-18 17:17:41 · 287 阅读 · 0 评论