聚类算法与协同进化学习解析
1. 聚类相关概念
聚类是一种无监督学习方法,旨在将一组示例划分为称为簇的组。直观上,簇内的示例彼此之间比与其他簇的示例更相似。为了衡量示例之间的相似性,聚类算法使用各种失真或距离度量。主要有两种聚类方法:生成式和判别式。生成式方法假设数据具有参数形式,并尝试找到使数据由所选模型生成的概率最大化的模型参数;判别式方法则代表图论方法,计算定义在输入数据上的相似性矩阵。
1.1 聚类变体问题
- Cluster Deletion :需要删除最少数量的边以获得由多个团组成的图。
- Cluster Editing :允许添加和删除边。
- Cluster Completion :只能添加边,这些问题都可以限制为构建指定数量的团。
1.2 聚类集成
聚类集成是一种无监督的集成学习方法。其原理是使用不同的算法对数据集创建多个不同的聚类,然后将不同聚类的结果聚合为一个集成结果。理论上,最终的集成聚类比单个聚类更可靠。
1.3 数据流聚类
聚类是最流行的数据挖掘技术之一。在数据流计算模型下设计聚类算法时,需要考虑连续到达的数据点和实时分析的需求,这要求算法能够进行增量聚类,并维护随时间演变的簇结构。
1.3.1 数据流聚类的要求
- 提供及时的结果,对数据对象进行快速和增量处理。
- 快速适应数据的动态变化,即检测新簇的出现或旧
超级会员免费看
订阅专栏 解锁全文
747

被折叠的 条评论
为什么被折叠?



