学习笔记,仅供参考,有错必纠
Data Clustering: 50 Years Beyond K-means
根据感知到的相似性对物体进行分类的做法是许多科学的基础。将数据组织成合理的分组是理解和学习的最基本模式之一。例如,一种常见的科学分类方案将生物体分为分类等级:领域、界、门、纲等)。聚类分析是根据测量或感知的内在特征对对象进行分组的算法和方法的正式研究。聚类分析不使用先前标识符标记对象的类别标签,即类标签。类别信息的缺失将聚类分析(无监督学习)和鉴别分析(监督学习)区分开来。聚类分析的目的是简单地找到一个方便和有效的数据组织,而不是建立将未来的数据分类的规则。
聚类方法的发展是一项真正的跨学科努力。分类学家、社会科学家、心理学家、生物学家、统计学家、工程师、计算机科学家、医学研究人员以及其他收集和处理真实数据的人员都对聚类方法做出了贡献。据JSTOR称,数据聚类最早出现在1954年一篇关于人类学数据的文章的标题中。最著名、最简单和最流行的聚类算法之一是K-means。它是由斯坦豪斯(1955),劳埃德(1957),鲍尔和霍尔(1965)和麦昆(1967)独立发现的!通过谷歌Scholar进行的一项搜索发现,仅2007年一年,就有2.2万个词条使用了单词聚类,1560个词条使用了单词数据聚类。在2006年和2007年CVPR、ECML