深度学习架构中的信息容量评估与输出流形
1. 神经网络输出空间与性能分析
1.1 不同层神经网络输出空间表示
在神经网络中,不同层的输出可以表示为特定维度空间中的点。例如,对于具有两层和三层的神经网络,其输出可以分别用不同的权重和偏置系统来参数化。具体而言,对于一个三层神经网络,其第二层到第三层的权重和偏置为((\hat{W}, \hat{b})),第一层到第二层的为((W, b)),输出(\hat{Y})可以表示为一个维度为 79,510 的空间中的点,由((\hat{W}, W, \hat{b}, b) \in R^{784×100} × R^{100×10} × R^{100} × R^{10})参数化。而零隐藏层神经网络的输出(Y = \varphi(W^T X + b))则可以表示为一个维度为 7,850 的空间中的点,由((W, b) \in R^{784×10} × R^{10})参数化。
1.2 网络维度与性能关系
当神经网络进行优化时,其输出对应于目标变量(Z)在上述空间中的投影。一般来说,空间维度越大,通过投影对目标变量(Z)的近似效果越好,这意味着引入隐藏层时网络的准确性往往更高。
1.3 全连接层前馈神经网络在 MNIST 数据分类中的问题
全连接层前馈神经网络在 MNIST 数据分类中表现不佳,主要归因于两种信息损失:
- 网络容量不足 :两层网络的容量有限,可以通过增加隐藏层的层数或神经元数量来提高网络容量。然而,这种情况下网络准确率存在约 98% 的上限,无论隐藏层有多宽或添加多少隐藏层,都无法突破这一上限。
-
超级会员免费看
订阅专栏 解锁全文
885

被折叠的 条评论
为什么被折叠?



