2.12 主成分分析（下）

最新推荐文章于 2025-09-05 21:51:54 发布

翻译最新推荐文章于 2025-09-05 21:51:54 发布 · 652 阅读

文章标签：

#深度学习 #线性代数 #麻省理工

PRML 专栏收录该内容

43 篇文章

订阅专栏

本文深入探讨了深度学习中的编码与降维技术，包括如何通过优化编码过程实现高效的数据表示，以及如何选择合适的编码矩阵以最小化输入与重构之间的L2距离。详细解释了从理论到实践的每一步，包括矩阵操作、特征分解和优化算法的应用。

声明：该文章翻译自MIT出版的《DEEP LEARNING》，博主会定期更新文章内容。由于博主能力有限，中间有过错之处希望大家给予批评指正，一起学习交流。

为了进一步分析，我们必须替换 $g(c)$ 的定义：

c * = a r g m i n c - 2 x T D c + c T D T D c

$\boldsymbol{c}^\ast=\rm{\mathop{argmin}_{c}}-2\boldsymbol{x}^T\boldsymbol{Dc}+\boldsymbol{c}^T\boldsymbol{D}^T\boldsymbol{Dc}$

= a r g m i n c - 2 x T D c + c T I l c

$=\rm{\mathop{argmin}_{c}}-2\boldsymbol{x}^T\boldsymbol{Dc}+\boldsymbol{c}^T\boldsymbol{I_lc}$ (对

D $\boldsymbol{D}$ 施加正交和单位范数约束)

= a r g m i n c - 2 x T D c + c T c

$=\rm{\mathop{argmin}_{c}}-2\boldsymbol{x}^T\boldsymbol{Dc}+\boldsymbol{c}^T\boldsymbol{c}$ 我们可以用矢量微积分解决这个最优化问题（该部分内容参见4.3）：

\nabla (- 2 x T D c + c T c) = 0

$\nabla\rm(-2\boldsymbol{x}^T\boldsymbol{Dc}+\boldsymbol{c}^T\boldsymbol{c})=0$

- 2 D T x + 2 c = 0

$-2\rm\boldsymbol{D}^T\boldsymbol{x}+2\boldsymbol{c}=0$

c = D T x (2.2)

$\boldsymbol{c}=\rm\boldsymbol{D}^T\boldsymbol{x}\tag{2.2}$ 这是一个好消息：我们可以只用一个矩阵向量操作来最优化编码

x $\boldsymbol{x}$ 。为了编码一个向量，我们应用编码函数:

f (x) = D T x

$f(x)=\rm\boldsymbol{D}^T\boldsymbol{x}$ 进一步使用矩阵乘法，我们也可以定义PCA重构操作：

r (x) = g (f (x)) = D D T x

$r(\boldsymbol{x})=g(f(\boldsymbol{x}))=\rm\boldsymbol{DD}^T\boldsymbol{x}$ 接下里，我们需要选择编码矩阵

D $\boldsymbol{D}$ 。要做到这一点，我们需要回顾最小化输入和重构之间

L2 $\boldsymbol{L}^2$ 距离的想法。然而，因为我们使用相同的矩阵来解码所有点，我们就不能孤立考虑每个点。我们必须最小化误差矩阵的Frobenius范数：

D * = a r g m i n D \sum i, j (x (i) j - r (x (i)) j) 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt 其 中 D T D = I l (2.3)

$\boldsymbol{D^\ast}=\rm {\mathop{argmin}_D}\sqrt{\sum_{i,j}(\boldsymbol{x}_{j}^{(i)}-r(\boldsymbol{x^{(i)}})_j)^2} 其中\boldsymbol{D^\rm{T}D}=\boldsymbol{I_l}\tag{2.3}$ 为了导出寻找

D∗ $\boldsymbol{D^\ast}$ 的算法，我们先考虑

l=1 $l=1$ 的情况。在这种情况下，

D $\boldsymbol{D}$ 只是一个单一的矢量

d $\boldsymbol{d}$ 。将2.2代入2.3，并将

D $\boldsymbol{D}$ 化为

d $\boldsymbol{d}$

d * = a r g m i n d \sum i | | x (i) - d d T x (i) | | 22 其 中 | | d | | 2 = 1

$\boldsymbol{d^\ast}=\rm \mathop{argmin}_d\sum_{i}||\boldsymbol{x}^{(i)}-\boldsymbol{dd^\rm{T}x^{(i)}}||_2^2 其中||\boldsymbol{d}||_2=1$ 上面是带入之后最直接的化简方式，但是对于写等式来说风格不悦目。它把标量放在了矢量的右边。而更方便的方式是将标量洗漱放在矢量的左边。因此，我们通常将等式写成下面的形式：

d * = a r g m i n \sum i | | x (i) - d T x (i) d | | 22 其 中 | | d | | 2 = 1

$\boldsymbol{d^\ast}=\rm argmin\sum_{i}||\boldsymbol{x^{(i)}}-\boldsymbol{d^\rm{T}x^{\rm{(i)}}d}||_2^2其中||\boldsymbol{d}||_2=1$ 或者，根据标量的转置等于本身

d * = a r g m i n \sum i | | x (i) - x (i) d d | | 22 其 中 | | d | | 2 = 1

$\boldsymbol{d^\ast}=\rm argmin\sum_{i}||\boldsymbol{x^{(i)}}-\boldsymbol{x^{\rm{(i)}}dd}||_2^2其中||\boldsymbol{d}||_2=1$ 上面的方式使得我们能够用更紧凑的符号来表示。让

X∈Rm×n $\boldsymbol{X}\in\rm{R^{m\times n}}$ 表示所有用来描述点的向量所定义的矩阵，这样的话

Xi,:=x(i) $\boldsymbol{X_{i,:}=x^{(\rm i)}}$ 。我们现在将问题重写为：

d * = a r g m i n | | X - X d d T | | 2 F 其 中 | | d | | 2 = 1

$\boldsymbol{d^\ast}=\rm argmin||\boldsymbol{X-Xdd^{\rm T}}||_F^2其中||\boldsymbol{d}||_2=1$ 暂时忽略限制，我们可以将Frobenius范数化为：

a r g m i n | | X - X d d T

$\rm argmin||\boldsymbol{X-Xdd^{\rm T}}$

= a r g m i n T r ((X - X d d T) T (X - X d d T))

$=\rm argmin Tr((\boldsymbol{X-Xdd^{\rm T}})^T(\boldsymbol{X-Xdd^{\rm T}}))$ （Frobenius范数的另一种定义）

= a r g m i n T r (X T X - X T X d d T - d d T X T X + d d T X T X d d T)

$=\rm argminTr(\boldsymbol{X^{\rm T}X-X^{\rm T}Xdd^{\rm T}-dd^{\rm T}X^{\rm T}X}+\boldsymbol{dd^{\rm T}X^{\rm T}Xdd^{\rm T}})$

= a r g m i n T r (X T - T r (X T X d d T) - T r (d d T X T X + T r (d d T X T X d d T)

$=\rm argminTr(\boldsymbol{X^{\rm T}}-Tr(\boldsymbol{X^{\rm T}Xdd^{\rm T}})-Tr(\boldsymbol{dd^{\rm T}X^{\rm T}X}+Tr(\boldsymbol{dd^{\rm T}X^{\rm T}Xdd^{\rm T}})$