数据学习(5)·K-means 聚类和PCA算法

最新推荐文章于 2025-06-23 03:48:04 发布

原创最新推荐文章于 2025-06-23 03:48:04 发布 · 3.7k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

22 篇文章

订阅专栏

本文深入探讨无监督学习的核心概念，包括K-means聚类和主成分分析（PCA）。K-means聚类用于数据集的分组，而PCA则用于降维和特征提取，消除特征间的相关性并减少噪音。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者的课堂笔记humminwang@163.com

Preview

K-means 聚类
主成分分析（Principal Component Analysis）

无监督学习

和有监督学习类似，但是数据没有标签。给定输入数据，发现简化的特征，同时和输入的特征拥有同样的信息量。
一般来说，好的表示一般是低维度的，或者是稀疏表示的，也就是说大部分是0，又或者是独立的表示。

1 K-means 聚类问题

输入数据 ${x(1).....x(m)},x(i)∈Rd\{x^{(1)}.....x^{(m)}\},x^{(i)}\in R^d$ ,K-means聚类将输入数据分成k类, $k \leq n$ 来最小化每个类别内的平方和(WCSS).
$argmin_C\sum_{j=1}^k\sum_{x\in C_j}||x-\mu_j||^2$
等价问题：

最小化每个类内的方差 $∑j=1k∣Cj∣Var(Cj)\sum_{j=1}^k|C_j|Var(C_j)$ .
最小化点之间的成对平方偏差在同一集群中： $∑i=1k12∣Ci∣∑x,x‘∈Ci∣∣x−x‘∣∣2\sum_{i=1}^k\frac{1}{2|C_i|}\sum_{x,x`\in C_i}||x-x`||^2$
最大化类与类之间的距离（BCSS）.

1.1 K-means聚类算法

优化K-means聚类是一个NP-hard问题，在欧式空间中。
通常通过启发式，迭代算法。
Lloyd’s 算法

1.2 K-means聚类讨论

K-means学习k维的稀疏表示，比如x使用one-hot编码， $z∈Rkz\in R^k$ .
$z_j^{(i)}=1 \quad if \quad c^{(i)}=j，otherwise \quad0$
算法收敛于局部最优解，所以初始值的选择很重要！
怎样初始化 $μ\mu$ ？均匀随机抽样（K-means++）,或者基于距离的采样。
怎么选择K？交叉验证或者G-means。

2 PCA(Principal Component Analysis)

消除特征之间的相关性，同时减少噪音。
给出 ${x(1),...,x(m)},x(i)∈Rn\{x^{(1)},...,x^{(m)}\},x^{(i)}\in R^n$ .

发现一个线性的正交变换W： $R^n-R^k$ 针对输入数据。
W 是将最大方差的方向和新坐标轴的方向对齐。
正则化x,以便让 $mean(x)=0,Stdev(x_j)=1$
$x^{(i)}:=x^{(i)}-Mean(x)$
$xj(i):=xj(i)/Stdev(xj)x^{(i)}_j:=x^{(i)}_j/Stdev(x_j)$

2.1 PCA表示学习

PCA 目标：

发现主要的组成 $u_1,.....,u_n$ 他们相互正交，也就是不相关。
$x$ 的大部分变化将由 $k < < n$ 的 $k$ 个主成分来解释。

PCA 的主要操作：

发现 $x$ 的投影， $u_1^Tx$ 覆盖最大的方差。
对 $j = 1, 2, . . . ., n$ 同样上述操作，找出互相正交的 $u_1,.....,u_j$ 个方向。

2.2 寻找主成分

投影的方差：
$1m∑i=1m(x(i)Tu)2=1m∑i=1muTx(i)x(i)Tu=uT(1m∑i=1mx(i)x(i)T)u=uTΣu\frac{1}{m}\sum_{i=1}^m(x^{(i)^T}u)^2=\frac{1}{m}\sum_{i=1}^mu^Tx^{(i)}x^{(i)^T}u=u^T(\frac{1}{m}\sum_{i=1}^m x^{(i)}x^{(i)^T})u=u^T\Sigma u$
$Σ:\Sigma:$ 是样本的协方差矩阵。

2.3 第一主要成分

发现一个 $u_1$ 最大化投影方差：
$u_1=argmax_{u:||u||=1}u^T\Sigma u$
$u_1$ 被称为 $x$ 的第一主成分。同时 $u_1$ 是协方差矩阵的最大特征向量。

证明： $u_1$ 是协方差矩阵的最大特征向量。
使用拉格朗日函数：
$L(u)=-u^T\Sigma u+\beta(u^Tu-1)$
最小化 $L (u)$ .
$\frac{\partial L}{\partial u}=-2\Sigma u+2\beta u=0$
所以 $Σu=βu\Sigma u=\beta u$ ,因此 $u_1$ 是 $Σ\Sigma$ 的特征向量。 $u=v_j$ ,是第 $j$ 大的特征值对应的特征向量。
$u^T\Sigma u=v_j^T\Sigma v_j=\lambda_jv_j^Tv_j=\lambda_j$
因此 $u_1=v_1$ 特征向量对应最大的特征值。

证明：第j个主成分， $u_j$ 是第j大的协方差矩阵的特征向量。
j=2
$u_2=argmax_{||u||=1,u_1^Tu=0}u^T\Sigma u$
拉格朗日函数：
$L(u)=-u^T\Sigma u+\beta_1(u^Tu-1)+\beta_2(u_1^Tu)$
最小化 $L (u) :$
$\beta_2=0, \Sigma u=\beta_1u$
最大化 $uTΣu=λ,u2u^T\Sigma u=\lambda,u_2$ 必须是第二大特征值对应的特征向量 $β1=λ2\beta_1=\lambda_2$ .

2.4 PCA性质

主成分投影的方差是： $Var(xTuj)=ujTΣuj=λjVar(x^Tu_j)=u_j^T\Sigma u_j=\lambda_j$ ,j=1,2…n
% 由第j主成分解释的方差可以被表示成 $λj∑i=1nλi\frac{\lambda_j}{\sum_{i=1}^n\lambda_i}$
同样可通过前K主成分解释 $∑j=1kλj∑j=1nλj\frac{\sum_{j=1}^k\lambda_j}{\sum_{j=1}^n\lambda_j}$

2.5 PCA 投影

样本在主成分空间的投影：
$z^{(i)}=\begin{bmatrix}x^{(i)^T}u_1\\....\\x^{(i)^T}u_n\end{bmatrix}\in R^n$
矩阵表示：
$z^{(i)}=\begin{bmatrix}....&....&....\\u_1&....&u_n\\....&....&....\end{bmatrix}^Tx^{(i)}=W^Tx^{(i)},or \quad Z=XW$
仅用前K个主成分用来降维。

2.5 PCA理解

PCA移除了输入数据的冗余。
$Z = X W$ 为PCA的投影数据。
$cov(Z)=\frac{1}{n}Z^TZ=\frac{1}{n}(XW)^T(XW)=W^T(\frac{1}{n}X^TX)W=W^T\Sigma W$
因为 $Σ\Sigma$ 是对称的，有特征值，特征分解为：
$\Sigma =W\Lambda W^T$
$W=\begin{bmatrix}....&....&....\\u_1&....&u_n\\....&....&....\end{bmatrix},\Lambda=\begin{bmatrix}\lambda_1&....&....\\....&....&....\\....&....&\lambda_n\end{bmatrix}$
$cov(Z)=W^T(W\Lambda W^T)W=\Lambda$
主成分变换 $X W$ 对角化 $X$ 的样本协方差矩阵。

2.6 PCA例子

鸢尾花数据
122
在这里插入图片描述

人脸特征

2.7 PCA 的缺点

只考虑了数据特征之间的线性关系
假设数据是真实并且连续的
假设输入空间的近似正态性（但在实践中，对于非正态分布的数据仍然可以很好）

非正态分布输入：
在这里插入图片描述

2.7 PCA核心

利用PCA特征提取。

线性的PCA假设数据在 $R^n$ 是可分的.
非线性推广：

将数据投影到更高维度使用特征映射。 $Rn→Rd(d≥n)R^n \rightarrow R^d(d≥n)$
特征映射通过定义核函数 $K(x(i),x(j))=ϕ(x(i))Tϕ(x(j))K(x^{(i)},x^{(j)})=\phi(x^{(i)})^T\phi(x^{(j)})$ 或者核矩阵 $K∈Rm×nK\in R^{m\times n}$

特征映射数据的样本的协方差矩阵：
$\Sigma=\frac{1}{m}\sum_{i=1}^m\phi(x^{(i)})\phi(x^{(i)})^T\in R^{d\times d}$
让 $(λk,vk),k=1,....d(\lambda_k,v_k),k=1,....d$ 是 $Σ\Sigma$ 的特征分解。
$\Sigma v_k=\lambda_k v_k$
$x^{(l)}$ 在第k主成分 $v_k$ 的PCA投影是：
$\phi(x^{(l)})^Tv_k$
为了避免计算 $ϕ(x(l))\phi(x^{(l)})$ ,于是：
$\Sigma v_k=(\frac{1}{m}\sum_{i=1}^m\phi(x^{(i)})\phi(x^{(i)})^T)v_k=\lambda_kv_k$
把 $v_k$ 写成 $ϕ(x(1))....ϕ(x(m))\phi(x^{(1)})....\phi(x^{(m)})$ 的线性组合：
$v_k=\sum_{i=1}^m\alpha_k^i\phi(x^{(i)})$
$x^{(l)}$ 的PCA投影通过使用K函数表示：
$\phi(x^{(l)})^Tv_k=\phi(x^{(l)})^T\sum_{i=1}^m\alpha_k^i\phi(x^{(i)})=\sum_{i=1}^m\alpha_k^iK(x^{(l)},x^{(i)})$
怎么计算 $αki\alpha_k^i$ :
$\Sigma v_k=(\frac{1}{m}\sum_{i=1}^m\phi(x^{(i)})\phi(x^{(i)})^T)v_k=\lambda_kv_k$
用 $vk=∑i=1mαkiϕ(x(i))v_k=\sum_{i=1}^m\alpha_k^i\phi(x^{(i)})$ 代替：
$K\alpha_k=\lambda_km\alpha_k$
于是 $αk=[αk1....αkm]\alpha_k=\begin{bmatrix}\alpha_k^1\\....\\\alpha_k^m\end{bmatrix}$ 可以通过求K的特征分解来得出。
正则化 $αk\alpha_k$ 以便于使 $v_k^Tv_k=1$
$v_k^Tv_k=\sum_{i=1}^m\sum_{j=1}^m\alpha_k^i\alpha_k^j\phi(x^{(i)})^T\phi(x^{(j)})=\alpha_k^TK\alpha_k=\lambda_km(\alpha_k^T\alpha_k)$
$||\alpha_k||^2=\frac{1}{\lambda_km}$
当 $E(ϕ(x))≠0E(\phi(x))\ne0$ ,我们需要重新计算 $ϕ(x)\phi(x)$ :
$ϕ^(x(i))=ϕ(x(i))−1m∑l=1mϕ^(x(l)) \hat\phi(x^{(i)})=\phi(x^{(i)})-\frac{1}{m}\sum_{l=1}^m\hat\phi(x^{(l)})$
中心化之后的K函数：
$K^i,j=ϕ^(x(i))Tϕ^(x(j)) \hat K_{i,j}=\hat \phi(x^{(i)})^T\hat \phi(x^{(j)})$
矩阵表示：
$K^=K−1mK−K1m+1mK1m,1m=[1m....1m............1m....1m] \hat K=K-1_mK-K1_m+1_mK1_m,\quad 1_m=\begin{bmatrix}\frac{1}{m}&....&\frac{1}{m}\\....&....&....\\\frac{1}{m}&....&\frac{1}{m}\end{bmatrix}$
然后使用 $K^\hat K$ 来计算PCA.

在这里插入图片描述