约束聚类方法综述
1. 约束类型
聚类问题中遇到的约束可分为实例级约束和簇级约束。
- 实例级约束 :是对数据对象对的成对必须链接(must - link)和不能链接(cannot - link)约束。必须链接约束要求两个对象必须放在同一簇中,不能链接约束则要求两个对象不能放在同一簇中。必须链接约束形成等价关系,其等价类有时被称为小块(chunklets)。可以根据必须链接约束将数据初始划分为小块。需要注意的是,成对约束形式的先验信息比标记数据形式的先验信息弱,标记数据可轻松转换为成对约束,但无法从成对约束推断出数据对象的标签。
- 簇级约束 :除实例级约束外,约束聚类问题中还有其他约束。例如平衡约束,它会使簇的大小具有可比性;给定带正权重的数据对象,可限制每个簇中数据对象的总权重,这就是容量聚类问题;还可能对簇的半径设置上下限;也可以要求得到与初始聚类“不同”的聚类。
2. 带标记数据的约束聚类
2.1 基于搜索的方法
- 多目标优化问题 :带有限数量标记数据的约束聚类可视为多目标优化问题,目标是最大化簇内相似度、最大化簇间相异度以及最小化簇杂质(衡量分区与先验知识(标签)之间的一致性)。
- Seeded - K - means 和 Constrained - K - means :Basu 等人针对带标记数据的聚类问题开发了 K - means 算法的两个变体。
- Seeded - K - means
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



