浅神经网络中的自动编码器矩阵分解技术探索
1. 自动编码器基础与矩阵关系
在自动编码器的训练中,对于非退化情况,当矩阵 $D$ 的行向量张成完整的 $d$ 维空间时,有一些重要的矩阵关系。根据伪逆的定义,$WV = I$ 且 $V^T W^T = I$,其中 $I$ 是 $k×k$ 的单位矩阵。将等式 $2.38$ 右乘 $W^T$ 可得 $DW^T \approx U (V^T W^T) = U$。这意味着矩阵 $D$ 的每一行与 $d × k$ 矩阵 $W^T$ 相乘,能得到该实例的降维表示,即 $U$ 中对应的行;再将 $U$ 的这一行与 $V^T$ 相乘,就能得到原始数据矩阵 $D$ 的重构版本。
虽然 $W$ 和 $V$ 存在许多替代最优解,但为了实现重构(即最小化损失函数),学习得到的矩阵 $W$ 通常(近似)是 $V$ 的伪逆,并且 $V$ 的列向量总是张成由奇异值分解(SVD)优化问题定义的特定 $k$ 维子空间。
2. 与奇异值分解的联系
单层自动编码器架构与奇异值分解密切相关。奇异值分解能找到一个因式分解 $UV^T$,其中 $V$ 的列向量是正交归一的。该神经网络的损失函数与奇异值分解的损失函数相同,并且当 $V$ 的列向量正交归一时,这样的解 $V$ 总是训练神经网络可能得到的最优解之一。不过,由于这个损失函数存在替代最优解,所以也有可能找到一个最优解,其中 $V$ 的列向量不一定相互正交或缩放为单位范数。
奇异值分解由正交基系统定义,但 $V$ 的 $k$ 个列向量所张成的子空间与奇异值分解的前 $k$ 个基向量所张成的子空间是相同的。主成分分析与奇异值分解基本相同,只是它应用于经过均值中心化的矩阵 $D$。因
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



