数据聚类:从一维到多维的深入解析
1. 一维数据聚类
在一维数据聚类中,我们首先关注两个函数 $\phi(x)$ 和 $\psi(x)$ 的关系。有如下性质:
- $x_0 \in \arg \min_{x\in\mathbb{R}} \phi(x)$ 当且仅当 $x_0 \in \arg\max_{x\in\mathbb{R}} \psi(x)$;
- $\min_{x\in\mathbb{R}} \phi(x) = \kappa - \max_{x\in\mathbb{R}} \psi(x)$,即 $\phi(x_0) = \kappa - \psi(x_0)$。
例如,对于 $\phi(x) = x^2 - 1$ 和 $\psi(x) = -x^2 + 3$,我们可以验证它们是否满足这些性质,并且可以在同一坐标系中绘制它们的图像。此外,我们也可以自己尝试找出满足上述性质的其他函数对。
接着,有一个重要的定理,关于寻找最小二乘(LS)最优分区。存在一个分区 $\Pi^\star\in P(A; k)$ 使得:
- $\Pi^\star\in\arg \min_{\Pi\in P(A;k)} F_{LS}(\Pi) = \arg\max_{\Pi\in P(A;k)} G(\Pi)$;
- $\min_{\Pi\in P(A;k)} F_{LS}(\Pi) = F_{LS}(\Pi^\star)$ 且 $\max_{\Pi\in P(A;k)} G(\Pi) = G(\Pi^\star)$,其中 $G(\Pi^\star) = \sum_{i=1}^{m} (c - a_i)^2 - F_{LS}(\Pi^\star)$。
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



