神经网络超参数与图像不变性技术详解
1. 学习率
学习率是超参数中影响最大的一个,它对神经网络的训练时间、是否收敛到局部最优或全局最优有显著影响。在反向传播更新模型参数时,梯度下降算法会根据损失函数计算出一个值用于更新参数,但这可能导致参数值大幅波动。若参数值持续大幅波动,模型参数将难以收敛。当观察到损失或准确率大幅波动时,说明模型训练未收敛,此时增加训练轮数也无济于事。
学习率可控制模型参数的更新程度,基本方法是用一个介于 0 到 1 之间的固定系数乘以要加减的值,以减少更新量,使训练更稳定,增加收敛的可能性。
- 小学习率 :如 0.001,能消除参数更新时的大幅波动,保证训练收敛到局部最优。但缺点是,更新步长越小,为使损失最小化所需的训练轮数就越多,训练时间也会变长;且步长越小,越难探索其他可能更优的局部最优,可能收敛到较差的局部最优或陷入鞍点。
- 大学习率 :如 0.1,可能导致参数更新时大幅跳跃。在某些情况下,初始收敛速度可能更快,所需训练轮数更少。但缺点是,即使初始收敛快,跳跃可能会过头,导致收敛来回摆动,或跳过不同的局部最优。当学习率非常高时,训练可能会发散,损失增加。
最佳学习率受多种因素影响,实践中,学习率范围通常在 10e - 5 到 0.1 之间。调整权重的基本公式为:
weight += -learning_rate * gradient
2. 学习率衰减
常见做法是先使用稍
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



