优化器选择哲学与卷积神经网络介绍
1. 优化器选择的哲学
在深度学习中,训练深度网络时会面临复杂的误差曲面,为了让在这些复杂误差曲面上的导航变得更易处理,人们采用了多种策略,这些策略最终形成了多种优化算法,每种算法都有其优缺点。
目前,专家们对于何时使用哪种算法并没有达成广泛共识。当下最流行的算法有小批量梯度下降、带动量的小批量梯度下降、RMSProp、带动量的RMSProp、Adam和AdaDelta(AdaDelta暂未讨论,且在撰写本文时TensorFlow不支持)。
对于好奇的读者,可以在Github仓库中找到一个TensorFlow脚本,用于在我们构建的前馈网络模型上试验这些优化算法:
$ python optimzer_mlp.py <sgd, momentum, adagrad, rmsprop, adam>
不过,对于大多数深度学习从业者来说,推动深度学习前沿发展的最佳方式并非构建更高级的优化器。过去几十年里,深度学习的绝大多数突破都是通过发现更易于训练的架构,而不是试图处理棘手的误差曲面来实现的。
优化算法面临的挑战及解决策略
在训练具有复杂误差曲面的深度网络时,会遇到一些挑战:
- 虚假局部极小值 :虽然这一挑战可能被夸大,但鞍点和病态条件确实对普通小批量梯度下降的成功构成严重威胁。
- 病态条件 :可以使用动量来克服。
- 自适应学习率优化器 :在
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



