文献学习(part74)--Data Clustering: 50 Years Beyond K-means

本文介绍了数据聚类的历史、重要性和应用,特别是聚类算法K-means。聚类分析是一种无监督学习方法,用于根据数据内在特征进行分组。尽管K-means是最知名和广泛使用的算法之一,但选择合适的聚类算法、距离度量、聚类数量和验证标准仍面临挑战。文章探讨了聚类算法的设计问题、著名方法以及半监督聚类、集成聚类和特征选择等新兴研究方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习笔记,仅供参考,有错必纠


Data Clustering: 50 Years Beyond K-means


根据感知到的相似性对物体进行分类的做法是许多科学的基础。将数据组织成合理的分组是理解和学习的最基本模式之一。例如,一种常见的科学分类方案将生物体分为分类等级:领域、界、门、纲等)。聚类分析是根据测量或感知的内在特征对对象进行分组的算法和方法的正式研究。聚类分析不使用先前标识符标记对象的类别标签,即类标签。类别信息的缺失将聚类分析(无监督学习)和鉴别分析(监督学习)区分开来。聚类分析的目的是简单地找到一个方便和有效的数据组织,而不是建立将未来的数据分类的规则

聚类方法的发展是一项真正的跨学科努力。分类学家、社会科学家、心理学家、生物学家、统计学家、工程师、计算机科学家、医学研究人员以及其他收集和处理真实数据的人员都对聚类方法做出了贡献。据JSTOR称,数据聚类最早出现在1954年一篇关于人类学数据的文章的标题中。最著名、最简单和最流行的聚类算法之一是K-means。它是由斯坦豪斯(1955),劳埃德(1957),鲍尔和霍尔(1965)和麦昆(1967)独立发现的!通过谷歌Scholar进行的一项搜索发现,仅2007年一年,就有2.2万个词条使用了单词聚类,1560个词条使用了单词数据聚类。在2006年和2007年CVPR、ECML

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GUI Research Group

谢谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值