降维方法小结_qtataq=ata-优快云博客

本文链接：https://blog.youkuaiyun.com/Blankit1/article/details/90639765

博客介绍了降维方法，其可降低数据维度，让原始数据更易分类。具体阐述了PCA和SVD（奇异值分解）两种算法，详细推导了SVD中实非对称阵和实矩阵的正交对角分解及奇异分解过程，还说明可通过取较大特征值实现降维，SVD可用于PCA降维、数据压缩和去噪。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

降维方法用于降低数据维度，用更少的变量来表达高维的信息，让原始的数据更易于分类

PCA
LDA
SVD¹

2. 具体算法

2.1 PCA

最小投影距离

2.3 SVD（Singular Value Decomposition），奇异值分解。

奇异值分解可以看成是实的非对称阵分解的推广，实的非对称阵分解则可看成实对称阵分解的推广。先来看看是对称阵分解。

如果 $A$ 是 $n$ 阶实对称阵，则存在正交阵 $Q$ (正交阵性质： $QQ^{T} = E$ ),使得
$Q^{T}AQ = diag( \lambda_{1}, \lambda_{2},..., \lambda_{n}) \text(1)$ $\lambda_{i}$ 是 $A$ 的特征值.
如果 $A$ 是 $n$ 阶实的非对称阵，则存在正交阵 $P, Q$ ，使得
$P^{T}AQ = diag( \alpha_{1}, \alpha_{2},..., \alpha_{n}) \text(2)$ $\alpha_{i}$ 是 $A$ 的特征值, $\alpha_{i}>0$ .
证： $A$ 是非奇异的， $A^{T}A$ 实对称阵正定矩阵,则存在正交阵 $Q$ ，使得
$Q^{T}A^{T}AQ = diag( \lambda_{1}, \lambda_{2},..., \lambda_{n}) \text(3)$ $\lambda_{i}$ 是 $A$ 的特征值， $\alpha_{i}>0$ .
令 $\alpha_{i} =\sqrt \lambda_{i}$ , $\wedge = diag( \alpha_{1}, \alpha_{2},..., \alpha_{n})$ ，带入 $(3)$ 式则有
$Q^{T}A^{T}AQ = \wedge^{2} \text(4)$
等式两边左乘 $\wedge^{-1}$ , $^{-1}Q^{T}A^{T}AQ = \wedge$ ,变换后得到：
$(AQ\wedge^{-1})^{T}AQ = \wedge(5)$
令 $AQ\wedge^{-1}$ ,则有 $P^{T}P = (AQ\wedge^{-1})^{T}AQ\wedge^{-1}=( (AQ\wedge^{-1})^{T}AQ)\times\wedge^{-1}=E$ 。所以， $P$ 是正交阵，且使 $P^{T}AQ =\wedge= diag( \alpha_{1}, \alpha_{2},..., \alpha_{n})$ .（ $Q$ 是正交阵（2）式处已证明）。所以，
$\alpha_{1}, \alpha_{2},..., \alpha_{n}) Q^{T}$ .
以上为实非对称阵A的正交对角分解。
如果 $A$ 是秩为 $r$ 的 $m\times n$ 的实矩阵，则存在 $m$ 阶正交阵 $U$ 和 $n$ 阶正交阵 $V$ 使得
$U^{T}AV=\begin{bmatrix} \Sigma & 0 \\ 0 & 0 \end{bmatrix} (3.1)$
其中 $\Sigma = diag(\sigma_{1},\sigma_{2},...,\sigma_{r})$ . $\sigma_{1},\sigma_{2},...,\sigma_{r}>0$ ,是 $A$ 的奇异值
证明：设 $A$ 的特征值是 $\lambda_{1}>\lambda_{2}>...>\lambda_{r}>\lambda_{r+1}=...=\lambda_{n}=0$ ，则存在正交阵 $V$ ,使得
$V^{T}A^{T}AV=diag(\lambda^{2}_{1},\lambda^{2}_{2},...,\lambda^{2}_{n})=\begin{bmatrix} \Sigma^{2} & 0 \\ 0 & 0 \end{bmatrix}(3.2)$
将 $V$ 分成两部分 $V_{1}$ 表示前 $r$ 列， $V_{2}$ 表示后 $n - r$ 列,则有 $V_{1}^{T}A^{T}AV_{1}=diag(\lambda^{2}_{1},\lambda^{2}_{2},...,\lambda^{2}_{n})=\Sigma^{2}(3.3)$
$V_{2}^{T}A^{T}AV_{2}=0(3.4)$
由（3.3）有， $\Sigma^{-1}V_{1}^{T}A^{T}AV_{1}\Sigma^{-1}=E$ ，即 $(AV_{1}\Sigma^{-1})^{T}(AV_{1}\Sigma^{-1})=E (3.5)$ .
由（3.4）有 $AV_{2})^{T}(AV_{2})=0$ ，则 $AV_{2}=0$ .
令 $U_{1}=AV_{1}\Sigma^{-1}$ ,则 $U_{1}^{T}U_{1}=E_{r}$ ,所有 $U_{1}$ 是有 $r$ 列两两正交向量的 $m\times r$ 的矩阵，记为 $U_{1} = (u_{1},u_{2},...,u_{r})$ ,将 $u_{1},u_{2},...,u_{r})$ 扩充成 $C^{m}$ 的标准正交基 $u_{1},u_{2},...,u_{r},u_{r+1},....,u_{m})$ ,令 $U_{2}=(u_{r+1},....,u_{m})$ . $U = (U 1, U 2)$ 是 $m$ 阶标准正交基，则有：
$U_{1}^TU_{1}=E_{r},U_{2}^TU_{1}=0$ ，
则有 $U^{T}AV=U^{T}A(V_{1},V_{2})=\begin{bmatrix} U_{1}^{T} \\ U_{2}^{T} \end{bmatrix}(AV_{1},AV_{2}) = \begin{bmatrix} U_{1}^{T} \\ U_{2}^{T} \end{bmatrix}(AV_{1},0)=\begin{bmatrix} U_{1}^{T}AV_{1} & 0 \\ U_{2}^{T}AV_{1} & 0 \end{bmatrix}$
由（3.5） $U_{1}^{T}AV_{1} =E_{r}$ ,又 $U_{2}^TU_{1}=0,U_{1}=AV_{1}\Sigma^{-1}$ ,所以 $U_{2}^{T}AV_{1}=0$ ,则
$U^{T}AV= \begin{bmatrix} E_{r} & 0 \\ 0 & 0 \end{bmatrix}$
$U\begin{bmatrix} E_{r} & 0 \\ 0 & 0 \end{bmatrix}V^{T}$ ,此式为 $A$ 的奇异分解。

通过取前个比较大的特征值，达到降维的目的。图示有比较直观的感受²

对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。即： $A{_{m\times n}} = U{_{m\times m}}\Sigma{_{m\times n}}V^{T}{_{n\times n}}\approx U{_{m\times k}}\Sigma{_{k\times k}}V^{T}{_{k\times n}}$
其中 $k$ 比 $n$ 小很多，这样就将一个大矩阵 $A$ 分解成三个小矩阵 $U_{m\times k},\Sigma{_{k\times k}}和V^{T}_{k\times n}$ 相乘。
如下图所示，现在我们的矩阵A只需要灰色的部分的三个小矩阵就可以近似描述了。

由于这个重要的性质，SVD可以用于PCA降维，来做数据压缩和去噪