降维原理
原矩阵X,变换矩阵W,变换后,进入新空间下的 W T X W^TX WTX。
想要进入新空间时,各特征之间的差异大分得开,也就是新空间下矩阵的方差越大越好,即
W
T
X
X
T
W
W^TXX^TW
WTXXTW越大越好,所以有:
max
w
tr
(
W
T
X
X
T
W
)
s.t.
W
T
W
=
I
\begin{array}{c} \max _{\mathbf{w}} \operatorname{tr}\left(\mathbf{W}^{\mathrm{T}} \mathbf{X} \mathbf{X}^{\mathrm{T}} \mathbf{W}\right) \\ \text { s.t. } \quad \mathbf{W}^{\mathrm{T}} \mathbf{W}=\mathbf{I} \end{array}
maxwtr(WTXXTW) s.t. WTW=I
特征值分解和SVD分解相关对比
-
特征值分解也有很多的局限,比如说变换的矩阵必须是方阵。SVD则没有要求。
-
PCA只与SVD的右奇异向量的压缩效果相同。
-
SVD无需计算协方差矩阵。
特征值和特征向量
- 特征值表示的是这个特征到底有多么重要,而特征向量表示这个特征是什么

其中,λ是特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。

其中,Q是矩阵A的特征向量组成的矩阵,\Sigma则是一个对角阵,对角线上的元素就是特征值。
本文深入解析降维原理,探讨如何通过变换矩阵使特征在新空间中最大化差异,介绍PCA与SVD在降维中的应用及区别,强调SVD无需计算协方差矩阵的优势。
294

被折叠的 条评论
为什么被折叠?



