学习率改变策略

最新推荐文章于 2025-06-17 12:45:00 发布

Fighting_young

最新推荐文章于 2025-06-17 12:45:00 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/u012224349/article/details/86621605

本文详细介绍了Caffe框架中常见的学习率调整策略，包括fixed、step、exp、inv、multistep、poly和sigmoid等，分析了每种策略的特点及适用场景，通过对比不同策略下的学习率变化曲线，总结了它们在神经网络训练过程中的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习率在神经网络训练中可以说是最重要也是最难调的超参数，下面结合博文（https://blog.youkuaiyun.com/hacker_long/article/details/85054085）总结caffe中常见的学习率改变策略。

变化策略

caffe框架中的策略包括：fixed，step，exp，inv，multistep，poly，sigmoid。

fixed：
即学习率固定，这个是最简单的学习率变化策略（不变），配置文件中只需要一个参数，实际中用得比较少，原因是：为了避免跳过全局最优，当参数状态越来越逼近全局最优点时，我们应该降低学习率。

lr_policy: "fixed"
base_lr: 0.01

lr_policy: "step"
base_lr: 0.01
stepsize: 10000
gamma: 0.1

multistep：
在迭代预设的不同次数后以一定的比例降低学习率，这个策略也很常用，也是一种离散的学习率变化策略简单且非常优秀，与step不同的是学习率发生改变的迭代次数不均匀。

lr_policy: "multistep"
gamma: 0.5
stepvalue: 10000
stepvalue: 30000
stepvalue: 60000

exp:
表达式为：new_lr = base_lr * (gamma^iter)，它符合指数函数的变化规律，是一种连续的学习率变化策略
这种策略的学习率衰减非常快，gamma越大学习率衰减越慢，在caffe中以iter为指数而iter通常非常大，所以学习率衰减仍然非常快。

exp变化策略中学习率随迭代次数变化曲线
inv：
表达式为：new_lr = base_lr * (1 + gamma * iter)^(-power)，从表达式可看出，inv中参数gamma控制曲线的下降速率，而参数power控制曲线在饱和状态下学习率达到的最低值。

inv变化策略中学习率随迭代次数变化曲线
poly:
表达式为：new_lr = base_lr * (1 - iter / maxiter)^power，从表达式可以看出学习率曲线主要由power值控制。当power = 1时，学习率曲线为一条直线。当power < 1时，学习率曲线为凸状。当power > 1时，学习率曲线为凹状

poly变化策略中学习率随迭代次数变化曲线
sigmoid:
表达式为：new_lr = base_lr * (1 / (1 + exp(-gamma * (iter - stepsize))))，其中，参数gamma控制学习率变化速率，gamma < 0时学习率才会下降，但是caffe中不支持。

poly变化策略中学习率随迭代次数变化曲线