半监督聚类与共识聚类验证方法解析
半监督聚类算法
提出了一种半监督算法,用于从等价约束中学习相异度的组合。该算法的误差函数包含一个惩罚项,用于控制所考虑的距离族的复杂度。优化过程基于稳健的二次规划方法,避免了局部极小值问题。
实验结果表明,相异度的组合几乎总是能提高仅基于单一相异度的聚类算法的性能。此外,该算法显著改进了标准的度量学习算法,并且对过拟合具有鲁棒性。未来的研究趋势将集中在将这种形式主义应用于异构数据源的集成。
Empirical Kernel Map 允许我们使用核方法处理非欧几里得相异度。设 $d: X × X →R$ 是一个相异度,$R = {x_1, \cdots, x_n}$ 是从训练集中抽取的代表子集。定义映射 $\varphi : F →R^n$ 为:
$\varphi(z) = D(z, R) = [d(z, x_1), d(z, x_2), \cdots, d(z, x_n)]$
这个映射定义了一个相异度空间,其中特征 $i$ 由 $d(., x_i)$ 给出。相异度的核可以定义为特征空间中两个相异度向量的点积:
$k(x, x’) = \langle\varphi(x), \varphi(x’)\rangle = \sum_{i = 1}^{n} d(x, p_i)d(x’, p_i), \forall x, x’ \in X$
共识聚类验证
聚类组合问题
聚类集成方法旨在提高数据聚类的鲁棒性和质量、重用聚类解决方案以及以分布式方式对数据进行聚类。这些方法主要分为两个阶段:构建聚类集成(CE)和将从 CE 中提取的信息组合成一个共识分区。 <
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



