神经网络超参数调优与深度网络训练难题解析
1. 关键超参数及其影响
1.1 优化器
选择比普通小批量梯度下降更好的优化器,并调整其超参数至关重要。虽然未详细介绍,但后续会有几种高级优化器的探讨。
1.2 批量大小
批量大小对模型性能和训练时间有显著影响。大批次的主要优点是GPU等硬件加速器能高效处理,使训练算法每秒能处理更多实例。因此,许多研究者和从业者建议使用能适应GPU内存的最大批量大小。然而,大批次在实践中常导致训练不稳定,尤其是在训练开始阶段,且得到的模型泛化能力可能不如小批量训练的模型。
不同观点如下:
- 2018年,Yann LeCun引用论文指出,使用小批量(2 - 32)更优,因为小批量能在更短训练时间内得到更好的模型。
- 2017年的一些论文表明,通过学习率预热等技术,可以使用非常大的批量(高达8192),能实现极短的训练时间,且无泛化差距。
策略:先尝试使用大批次并进行学习率预热,如果训练不稳定或最终性能不佳,再尝试小批量。
1.3 激活函数
对于隐藏层,ReLU激活函数通常是不错的默认选择;输出层的激活函数则取决于具体任务。
1.4 迭代次数
大多数情况下,无需调整训练迭代次数,使用早停法即可。
提示 :最优学习率依赖于其他超参数,特别是批量大小。因此,修改任何超参数时,都要更新学习率。
| 超参数 | 特点 | </
|---|
超级会员免费看
订阅专栏 解锁全文
2022

被折叠的 条评论
为什么被折叠?



