caffe的solver中不同的学习策略(lr_policy)

梯度下降法学习率策略

最新推荐文章于 2022-03-21 16:27:56 发布

原创最新推荐文章于 2022-03-21 16:27:56 发布 · 418 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍了在梯度下降法中不同学习率调整策略的原理与参数设定，包括fixed、step、exp、inv、multistep、poly及sigmoid等，通过Matlab示例展示了各种策略下学习率的变化趋势。

参考1

参考2

参考3

只要是梯度下降法来求解优化，都会有一个学习率，也叫步长。base_lr用于设置基础学习率，在迭代的过程中，可以对基础学习率进行调整。怎么样进行调整，就是调整的策略，由lr_policy来设置。

lr_policy可以设置为下面这些值，相应的学习率的计算为：

- fixed: 保持base_lr不变.
- step: 如果设置为step,则还需要设置一个stepsize, 返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示当前的迭代次数
- exp: 返回base_lr * gamma ^ iter， iter为当前迭代次数
- inv: 如果设置为inv,还需要设置一个power, 返回base_lr * (1 + gamma * iter) ^ (- power)
- multistep: 如果设置为multistep,则还需要设置一个stepvalue。这个参数和step很相似，step是均匀等间隔变化，而multistep则是根据stepvalue值变化
- poly: 学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
- sigmoid: 学习率进行sigmod衰减，返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))

fixed

参数：
base_lr: 0.01
lr_policy: "fixed"
max_iter: 400000

step

参数：
base_lr: 0.01
lr_policy: "step"
gamma: 0.1
stepsize: 30
max_iter: 100

exp

参数：
base_lr: 0.01
lr_policy: "exp"
gamma: 0.1
max_iter: 100
参数 gamma 的值要小于1。当等于1的时候，学习策略变为了 fixed。由exp的学习率计算方式可以看出，在 gamma = 0.1 的情况下，学习率每迭代一次变为上一次迭代的0.1倍。

inv

参数：
base_lr: 0.01
lr_policy: "inv"
gamma: 0.1
power: 0.75
max_iter: 10000
参数 gamma 控制曲线下降的速率，而参数 power 控制曲线在饱和状态下学习率达到的最低值

multistep

参数：
base_lr: 0.01
lr_policy: "multistep"
gamma: 0.5
stepvalue: 1000
stepvalue: 3000
stepvalue: 4000
stepvalue: 4500
stepvalue: 5000
max_iter: 6000
每一次学习率下降到之前的 gamma 倍。

poly

base_lr: 0.01
lr_policy: "poly"
power: 0.5
max_iter: 10000
学习率曲线的形状主要由参数 power 的值来控制。当 power = 1 的时候，学习率曲线为一条直线。当 power < 1 的时候，学习率曲线是凸的，且下降速率由慢到快。当 power > 1 的时候，学习率曲线是凹的，且下降速率由快到慢。

sigmoid

base_lr: 0.01
lr_policy: "sigmoid"
gamma: -0.001
stepsize: 5000
max_iter: 10000
参数 gamma 控制曲线的变化速率。当 gamma < 0 时，才能控制学习率曲线呈下降趋势，而且 gamma 的值越小，学习率在两头变化越慢，在中间区域变化越快。

MatlabDemo

clc; clear all;close all;
iter=1:80000;
max_iter=80000;
base_lr=1/(1e12);
gamma=0.1;
power=0.75;
step_size=20000;
% - fixed: always return base_lr.
lr=base_lr*ones(1,max_iter);
subplot(2,3,1)
plot(lr)
title('fixed')
% - step: return base_lr * gamma ^ (floor(iter / step))
lr=base_lr .* gamma.^(floor(iter./step_size));
subplot(2,3,2)
plot(lr)
title('step')
% - exp: return base_lr * gamma ^ iter
lr=base_lr * gamma .^ iter;
subplot(2,3,3)
plot(lr)
title('exp')
% - inv: return base_lr * (1 + gamma * iter) ^ (- power)
lr=base_lr.*(1./(1+gamma.*iter).^power);
subplot(2,3,4)
plot(lr)
title('inv')
% - multistep: similar to step but it allows non uniform steps defined by
% stepvalue
% - poly: the effective learning rate follows a polynomial decay, to be
% zero by the max_iter. return base_lr (1 - iter/max_iter) ^ (power)
lr=base_lr *(1 - iter./max_iter) .^ (power);
subplot(2,3,5)
plot(lr)
title('poly')
% - sigmoid: the effective learning rate follows a sigmod decay
% return base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))
lr=base_lr *( 1./(1 + exp(-gamma * (iter - step_size))));
subplot(2,3,6)
plot(lr)
title('sigmoid')