
聚类
记忆星空
这个作者很懒,什么都没留下…
展开
-
Kmeans中k值的相关理论
Kmeans算法作为机器学习十大算法之一,它的流程相信不用多说,这里说下它的缺点:1.需要提前给定k值2.对初始聚类中心的选取有很大的依赖性3.如果长时间不能收敛,计算时间会很长。而对于初始聚类中心的选择,《大数据-互联网大规模数据挖掘》这本书里有相关的策略,主要提到了2点;1 尽量选择较远的点作为聚类中心:首先随机选一个点,然后选距离这个点最远的点作为第二个聚类中心,然后再选原创 2015-08-10 22:34:38 · 1365 阅读 · 0 评论 -
Spectral Clustering
谱聚类一般用于无向图点的聚类,进行谱聚类首先需要得到需要这个图的临界矩阵W和度矩阵D。临界矩阵的定义相信大家都清楚,w(i,j)=0表示i,j两个点没有边相连,否则w(i,j)=1,至于对于任意一个图,什么时候让两个点相连呢,到本文后面会去讨论,另外一个矩阵叫做度矩阵,用D表示,它是一个对角矩阵,定义如下:最为重要不是D或者W,而是D-W,定义一个图的laplacian矩阵为原创 2014-12-19 23:36:45 · 755 阅读 · 0 评论 -
Latent Semantic Analysis(LSA)
对于一个term-document加权词频矩阵(如TD/IDF),如果他的规模m*n非常大,那么这些文本的存储还有计算聚类都会有不小的麻烦,LSA采用SVD分解将高维文本映射到低维的隐含语义空间,较好的解决了这个问题。分解后的三部分都有解释,U*sigma的每行都是每个单词在隐含语义层的坐标,V*sigma的每行都是每个文本在隐含语义层的坐标,另外也有一种说法就是U,V分别为单词和文本在潜原创 2014-12-12 10:15:02 · 1187 阅读 · 0 评论 -
Probabilistic Latent Semantic Analysis(PLSA)
对于上次说的LSA模型,它能解决多个单词一个意义,但是不能解决多个意义一个单词,就是多义词的问题,而PLSA模型能较好的解决这个问题,首先说下,这个模型的假设:1 假设生成一个单词的过程是这样的:首先选择一篇文章di,然后再次基础上选择一个潜变量zk,最后在此基础上再在选择一个单词。如果p(di,wj)表示第i个文本中第j个单词的概率,根据假设有:2 另外一个非常重要的假设是,单词wj原创 2014-12-13 20:35:42 · 1130 阅读 · 2 评论 -
Gaussian discriminant analysis and Gaussian Mixture Model
高斯判别分析的做法和贝叶斯思想有一定的公式,他是根据贝叶斯原创 2015-04-17 17:05:35 · 1393 阅读 · 0 评论