受限聚类:当前与新趋势
1. 受限聚类基础
在受限聚类中,用户约束在主问题里并非直接组成部分,而是在解决子问题时才需考虑。解决子问题时,会移除那些不满足约束的簇对应的列,以此来执行约束。子问题通过分支限界算法求解,利用反单调属性确保计算边界的正确性。
原则上,簇候选的数量相对于实例数量呈指数级增长。不过,在某些聚类场景(如概念聚类)中,候选簇通常可从较小的子集 T′ 中选取。针对受限子集 T′ 上的受限聚类问题,有基于整数线性规划(ILP)的框架被开发出来,可整合不同类型的用户约束。这些框架通过实施实例级和簇级约束,移除不满足约束的簇候选。同时,还能整合聚类约束和不同的优化准则。
例如,在事务型数据集的概念聚类中,每个实例(事务)由一组项目描述,目标是将事务分配到同质簇,并为每个簇提供独特描述。子集 T′ 中的簇可对应频繁模式或闭频繁模式,可通过先验提取频繁模式的算法或提取闭模式的算法(如 LCM)预先计算得到。
2. 约束编程
基于约束编程(CP),已为基于距离的受限聚类开发出通用且声明式的框架。CP 是解决组合满足或优化问题的强大范式,将问题建模为约束满足问题(CSP)或约束优化问题(COP)。
- CSP :是一个三元组 ⟨X, Dom, C⟩,其中 X 是一组变量,Dom(x) 是每个变量 x 的定义域,C 是一组约束,每个约束表达对 X 的一个子集的条件。CSP 的解是为每个变量 x 从 Dom(x) 中分配值,且满足 C 中的所有约束。
- COP :是带有要优化的目标函数的 CSP,其最优解是优化目标函数的 C
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



