深度学习架构中的几何与统计视角
在深度学习领域,从几何和统计的视角来研究神经网络能为我们理解网络的工作原理、优化过程以及性能表现提供新的思路。本文将深入探讨输出流形、统计流形以及费舍尔信息等关键概念,以及它们在神经网络中的应用。
输出流形视角下的神经网络
从几何角度看,每个神经网络都与一个输出流形相关联。流形上的局部坐标就是网络的权重和偏置。输出流形这一概念对于理解网络的多个方面非常有用,比如最优权重、学习过程、过拟合和欠拟合,以及正则化技术。
- 最优权重与学习过程 :网络的最优权重和偏置对应于目标在输出流形上的正交投影的坐标。每个学习算法都会改变流形上的坐标,对应于流形上的一条曲线。为流形赋予黎曼度量后,我们可以计算曲线的长度,并定义测地线,即两点之间的最短曲线。初始点和目标在流形上的投影点之间的测地线对应于最有效的学习算法。
- 过拟合与欠拟合 :目标点与输出流形距离过远表示欠拟合,而目标点过近或位于流形上则表示过拟合。
- 正则化技术 :不同类型的正则化方法可以从输出流形的角度来处理。选择较小维度的输出流形意味着减少权重的数量,从而减少网络中的神经元数量,导致网络容量下降。选择最平坦的输出流形可以使训练数据的过拟合程度最小。模型平均通过最小化距离来选择一个比其任何组成网络都更合适的模型。Dropout技术就属于这一类,也可以看作是一种乘法噪声正则化方法,并且还讨论了Dropout与L2正则化之间的关系。
以下是一些相关的练习题,帮助我们更好地理解输出流形的概念:
1.
深度学习的几何统计视角解析
超级会员免费看
订阅专栏 解锁全文
1186

被折叠的 条评论
为什么被折叠?



