一维 K-Means 与给定 J 中心问题的多项式可解性
1. 问题提出及相关背景
在聚类分析中,K-Means 问题是一个经典问题。给定一个在 d 维欧几里得空间中的 N 个点的集合 Y 和一个正整数 K,需要将集合 Y 划分为非空的簇 $C_1, \cdots, C_K$,使得以下求和最小:
[
\sum_{j = 1}^{K} \sum_{y \in C_k} |y - y(C_k)|^2
]
其中,$y(C_k) = \frac{1}{|C_k|} \sum_{y \in C_k} y$ 是第 k 个簇的质心。K-Means 问题也被称为最小平方和聚类(MSSC),在统计学领域早有研究。
近年来,有研究证明了 K-Means 问题是强 NP 难的。不过,在一维情况下,该问题具有多项式可解性。例如,Rao 在 1971 年提出了一个动态规划算法,其运行时间为 $O(KN^2)$。
本文研究的是一个与 K-Means 问题形式相近但研究较少的问题:
问题 1(K-Means 和给定 J 中心) :给定一个在 d 维欧几里得空间中的 N 个点的集合 Y、一个正整数 K 和一个点的元组 ${c_1, \cdots, c_J}$,需要将 Y 划分为非空的簇 $C_1, \cdots, C_K, D_1, \cdots, D_J$,使得:
[
F = \sum_{k = 1}^{K} \sum_{y \in C_k} |y - y(C_k)|^2 + \sum_{j = 1}^{J} \sum_{y \in D_j} |y - c_j|^2 \to \min
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



