文献学习(part74)--Data Clustering: 50 Years Beyond K-means

最新推荐文章于 2022-01-21 15:58:21 发布

GUI Research Group

最新推荐文章于 2022-01-21 15:58:21 发布

阅读量423

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/m0_37422217/article/details/117042702

机器学习专栏收录该内容

413 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了数据聚类的历史、重要性和应用，特别是聚类算法K-means。聚类分析是一种无监督学习方法，用于根据数据内在特征进行分组。尽管K-means是最知名和广泛使用的算法之一，但选择合适的聚类算法、距离度量、聚类数量和验证标准仍面临挑战。文章探讨了聚类算法的设计问题、著名方法以及半监督聚类、集成聚类和特征选择等新兴研究方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习笔记，仅供参考，有错必纠

Data Clustering: 50 Years Beyond K-means

根据感知到的相似性对物体进行分类的做法是许多科学的基础。将数据组织成合理的分组是理解和学习的最基本模式之一。例如，一种常见的科学分类方案将生物体分为分类等级:领域、界、门、纲等)。聚类分析是根据测量或感知的内在特征对对象进行分组的算法和方法的正式研究。聚类分析不使用先前标识符标记对象的类别标签，即类标签。类别信息的缺失将聚类分析(无监督学习)和鉴别分析(监督学习)区分开来。聚类分析的目的是简单地找到一个方便和有效的数据组织，而不是建立将未来的数据分类的规则。

聚类方法的发展是一项真正的跨学科努力。分类学家、社会科学家、心理学家、生物学家、统计学家、工程师、计算机科学家、医学研究人员以及其他收集和处理真实数据的人员都对聚类方法做出了贡献。据JSTOR称，数据聚类最早出现在1954年一篇关于人类学数据的文章的标题中。最著名、最简单和最流行的聚类算法之一是K-means。它是由斯坦豪斯(1955)，劳埃德(1957)，鲍尔和霍尔(1965)和麦昆(1967)独立发现的!通过谷歌Scholar进行的一项搜索发现，仅2007年一年，就有2.2万个词条使用了单词聚类，1560个词条使用了单词数据聚类。在2006年和2007年CVPR、ECML