重新思考协作聚类
1. 不稳定的局部聚类算法
在聚类算法中,一些依赖的局部算法是不稳定的,如 K - Means、FC - Means、用于高斯混合模型(GMM)的 EM 算法、自组织映射(SOM)和生成地形映射(GTM)。因此,这些方法不在当前讨论的范围内。
2. 聚类领域的现状
在学习理论的历史中,与监督学习尤其是分类相比,聚类一直处于边缘地位。在聚类的广泛领域中,多视图方法的理论分析问题更是少见。
3. 多视图距离的选择
多视图距离是定义稳定性的核心概念。由于聚类的无监督性质,没有客观的方法来衡量所产生分区的质量,稳定性只能相对于所选距离来定义。因此,选择合适的距离对于使稳定性反映算法的有趣特性至关重要。
我们引入了规范的多视图聚类距离,它是局部聚类距离的简单线性组合。这种选择显然是定义具有一些直观特性的多视图聚类距离的最直接方法,并且已经证明它能得出一些基本结果,如定理 2 和定理 3。然而,这个多视图聚类距离可能并不完全令人满意,因为它在定义中忽略了多视图问题的一个核心问题:视图之间的相互依赖性。通过在局部空间中采用边缘分布,规范的多视图距离本质上忽略了视图之间可能存在的相关性。例如,如果两个视图相同,仅在这两个视图中分别保持独立的稳定性是不够的。
很明显,应该研究其他多视图聚类距离并分析其理论性质,但如何构建这些距离尚不清楚。目前使用的定义只是对常规聚类距离定义的扩展,该定义没有对概率分布 P 上的距离 dP 进行约束,而对于多视图距离来说,这样的约束是合理的。此外,一些直观的结果仅针对这种特定的聚类距离成立,如命题 5(全局稳定性当且仅当所有视图上的稳定性)和命题 6(稳定算法的
超级会员免费看
订阅专栏 解锁全文
5

被折叠的 条评论
为什么被折叠?



