数据聚类的组合优化方法
1. 引言
聚类分析的目标是将表示为测量向量或多维空间中一个点的数据进行分组,使得最相似的对象属于同一组或聚类。一个聚类内的相似度越高,聚类之间的差异越大,聚类任务就完成得越好。
自20世纪90年代以来,聚类分析已成为一个重要的跨学科领域,涉及数学、统计学、遗传学、生物学、生物化学、计算机科学和工程等多个科学研究领域。它已应用于多个领域,包括社会科学、信息检索、自然语言处理、星系形成、图像分割和生物数据等。
聚类分析任务可以数学地表述为一个受约束的分数非线性0 - 1规划问题,解决此类问题没有计算高效的程序,只有在严格假设下该问题才具有计算可处理性。
2. 应用
聚类分析在多个不同领域有众多应用,近年来应用数量不断增加。随着技术发展,存储的数据量越来越大,因此通过检查大型数据库来生成新信息的高效技术变得更加迫切。以下是一些聚类分析的应用:
- 社会科学 :有助于理解人们如何分析和分类生活经历。
- 信息检索 :用于创建文档组,以提高检索的效率和效果,例如搜索引擎查询结果中的网页聚类。
- 自然语言处理 :需要对给定自然语言的大词汇量进行聚类。
- 商业 :分析潜在客户信息,以便进行营销活动。
- 星系形成 :研究气体凝聚和大量暗物质晕形成星系的过程。
- 图像分割 :通过搜索图像元素的封闭轮廓来实现分割。
-
超级会员免费看
订阅专栏 解锁全文
1188

被折叠的 条评论
为什么被折叠?



