深度学习中的鞍点与信息论基础
1. 鞍点相关知识
在深度学习算法训练中,误差可看作多维空间中的一个曲面,我们的目标是找到该曲面上的最小值,以此来最小化系统的整体误差。而寻找最小误差的方法是找到由负梯度给出的最陡峭下坡方向,然后改变网络使误差朝着这个方向移动。
1.1 鞍点的定义与特征
在三维空间中,存在一种全新的特征——鞍点。在鞍点处,一个方向上处于山谷底部,另一个方向上处于山顶。在鞍点的局部邻域,曲面看起来像骑手使用的马鞍。处于鞍点中间时,就像同时处于山顶和山谷,局部邻域看起来像高原,此时梯度为零。但只要稍微向某个方向移动一点,就会发现有一点曲率,梯度会重新出现,指示从该点上升最快的方向。
1.2 鞍点对深度学习训练的影响
训练深度学习算法时,我们通常希望找到最小误差,理想情况是找到类似碗底的最低点。然而,如果陷入山顶、鞍点或高原,就会被困住。此时虽然知道不是处于最小值,但梯度消失,我们就不知道该往哪个方向移动以降低误差。现代算法提供了各种自动技术来帮助摆脱困境,但有时这些技术会失效。若不引入重大改变,如提供额外的训练数据,算法就会一直被困住,停止学习,输出也不再改善。我们可以通过测量误差来观察学习进度,如果在结果可接受之前误差停止改善,可对算法稍作改变,让其在学习时选择不同路径,避开梯度为零的特定点。
2. 信息论基础
信息论是一个相对较新的研究领域,它为现代计算机、卫星、手机和互联网等技术奠定了基础。信息论中的术语和概念是深度学习的基石,其测量方法在评估深度网络性能时非常有用。
2.1 信息的定义
“信息”这个词既有日常含义,也有科学含义。
鞍点与信息论基础解析
超级会员免费看
订阅专栏 解锁全文
50

被折叠的 条评论
为什么被折叠?



