12、浅神经网络中的自动编码器矩阵分解技术探索-优快云博客

本文链接：https://blog.youkuaiyun.com/tree/article/details/154629883

浅神经网络中的自动编码器矩阵分解技术探索

1. 自动编码器基础与矩阵关系

在自动编码器的训练中，对于非退化情况，当矩阵 $D$ 的行向量张成完整的 $d$ 维空间时，有一些重要的矩阵关系。根据伪逆的定义，$WV = I$ 且 $V^T W^T = I$，其中 $I$ 是 $k×k$ 的单位矩阵。将等式 $2.38$ 右乘 $W^T$ 可得 $DW^T \approx U (V^T W^T) = U$。这意味着矩阵 $D$ 的每一行与 $d × k$ 矩阵 $W^T$ 相乘，能得到该实例的降维表示，即 $U$ 中对应的行；再将 $U$ 的这一行与 $V^T$ 相乘，就能得到原始数据矩阵 $D$ 的重构版本。

虽然 $W$ 和 $V$ 存在许多替代最优解，但为了实现重构（即最小化损失函数），学习得到的矩阵 $W$ 通常（近似）是 $V$ 的伪逆，并且 $V$ 的列向量总是张成由奇异值分解（SVD）优化问题定义的特定 $k$ 维子空间。

2. 与奇异值分解的联系

单层自动编码器架构与奇异值分解密切相关。奇异值分解能找到一个因式分解 $UV^T$，其中 $V$ 的列向量是正交归一的。该神经网络的损失函数与奇异值分解的损失函数相同，并且当 $V$ 的列向量正交归一时，这样的解 $V$ 总是训练神经网络可能得到的最优解之一。不过，由于这个损失函数存在替代最优解，所以也有可能找到一个最优解，其中 $V$ 的列向量不一定相互正交或缩放为单位范数。

奇异值分解由正交基系统定义，但 $V$ 的 $k$ 个列向量所张成的子空间与奇异值分解的前 $k$ 个基向量所张成的子空间是相同的。主成分分析与奇异值分解基本相同，只是它应用于经过均值中心化的矩阵 $D$。因