Caffe的solver参数

本文详细解析了Solver.prototxt文件的各项参数设置,包括网络地址、测试迭代次数、学习率策略及调整频率等内容,适用于使用AlexNet进行图像分类任务的学习者。

Solver.prototxt文件

Solver.prototxt文件

net: "models/bvlc_alexnet/train_val.prototxt" //网络地址
test_iter: 1000 //test_iter是测试时样本的迭代次数,因此测试时 总的数据量=迭代次数(test_iter)*批数量(batch_size)
test_interval: 1000 //测试间隔,每迭代500次就测试一次
base_lr: 0.01 //基础学习率,是所有层的学习率base_lr
lr_policy: "step" //学习率下降策略,让学习率在训练过程中发生变换
gamma: 0.1 //
stepsize: 100000
display: 20
max_iter: 450000
momentum: 0.9
weight_decay: 0.0005
snapshot: 10000 //每迭代10000次就保存一次模型和状态
snapshot_prefix: "models/bvlc_alexnet/caffe_alexnet_train" //caffemodel和
solver_mode: GPU
type:SGD
(1)学习率改变策略
lr_policy可以设置为下面这些值,相应的学习率的计算为:
- fixed:   保持base_lr不变.
- step:    如果设置为step,则还需要设置一个stepsize, 当前学习率=base_lr * gamma ^ (floor(iter / stepsize)), 其中iter表示当前的迭代次数
- exp:    当前学习率=base_lr * gamma ^ iter, iter为当前迭代次数
- inv:   如果设置为inv,还需要设置一个power, 当前学习率=base_lr * (1 + gamma * iter) ^ (- power)
- multistep: 如果设置为multistep,则还需要设置一个stepvalue。这个参数和step很相似,step是均匀等间隔变化,而multistep则是根据stepvalue值变化
- poly:    学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
- sigmoid:  学习率进行sigmod衰减,返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))
(2)优化方法
type:SGD //默认值,不写type则默认为SGD
type:AdaDelta
type:AdaGrad
type:Adam
type:Nesterov
type:RMSProp
  


  

转载于:https://www.cnblogs.com/codeDog123/p/7170705.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值