
数据挖掘-聚类算法
继续微笑lsj
眼界决定未来
展开
-
K-Means 算法
原文:http://news.cnblogs.com/n/148051/ 最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家。 在数据挖掘中, k-Means 算法是一种 cluster an转载 2013-10-05 10:43:28 · 1567 阅读 · 0 评论 -
层次聚类方法
不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书,那么应该选取多少个码字呢?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似转载 2013-10-06 18:52:54 · 1782 阅读 · 0 评论 -
聚类分析中几种算法的比较
将数据库中的对象进行聚类是聚类分析的基本操作,其准则是使属于同一类的个体间距离尽可能小,而不同类个体间距离尽可能大,为了找到效率高、通用性强的聚 类方法人们从不同角度提出了近百种聚类方法,典型的有K-means方法、K-medoids方法、CLARANS方法,BIRCH方法等,这些算法适用 于特定的问题及用户。本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类方法作了比转载 2013-10-05 22:02:57 · 4383 阅读 · 0 评论 -
BIRCH算法
1.BIRCH算法概念 BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)全称是:利用层次方法的平衡迭代规约和聚类。BIRCH算法是1996年由Tian Zhang提出来的,参考文献1。首先,BIRCH是一种聚类算法,它最大的特点是能利用有限的内存资源完成对大数据集的高质量的聚类,同时通过转载 2013-10-05 22:29:44 · 1890 阅读 · 0 评论 -
K-means算法实现
1.基本Kmeans算法[1][cpp] view plaincopy选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数转载 2013-10-05 23:16:33 · 1651 阅读 · 0 评论 -
Canopy Method算法
原文: http://www.cnblogs.com/shipengzhi/articles/2540514.html 聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:转载 2013-10-06 15:28:43 · 1823 阅读 · 0 评论 -
EM算法
EM算法是基于模型的聚类方法。K个高斯分布的均值原创 2013-10-04 20:43:03 · 1093 阅读 · 0 评论