聚类:理论与实践方面的深入探讨
1. 基于质心的聚类及其一致性
基于质心的聚类是一种常见的聚类方法。在这种方法中,首先从输入的点集中选择 k 个点作为暂定的质心,然后将集合 S 中的每个点分配给距离它最近的质心,从而定义出各个聚类。其目标是选择合适的质心,使得集合 S 中的每个点都至少靠近其中一个质心。
有两种常见的选择质心的方式:
- k - 中位数 :选择质心,使得分配到该质心的点与质心的相异度之和最小,这种质心也被称为费马点。
- k - 均值 :选择质心,使得分配到该质心的点与质心的相异度的平方和最小。
对于包括 k - 均值和 k - 中位数在内的一般类基于质心的聚类函数,这类函数都不满足一致性属性,这与单链接和成对求和的结果形成了对比。
对于 k ∈ N(k ≥ 2)和任何连续、非递减且无界的函数 g : R≥0 → R≥0,定义 (k, g) - 质心聚类函数如下:
选择 S 的子集 T 作为 k 个质心,使得目标函数 λg_d(T) = ∑x∈S g(d(x, T)) 最小化(这里 d(x, T) = minc∈T d(x, c))。然后,通过将每个点分配给 T 中距离它最近的元素,将 S 划分为 k 个聚类。
- 当 g 为恒等函数时,得到 k - 中位数函数。
- 当 g(d) = d² 时,得到 k - 均值聚类的目标函数。
可以证明,对于每个 k ≥ 2 和上述选择的每个函数 g,当 n 相对于 k 足够大时,(k, g) - 质心聚类函数不满足一致性属性。
超级会员免费看
订阅专栏 解锁全文
1796

被折叠的 条评论
为什么被折叠?



