caffe学习笔记1 SGD solver

CS蜗牛

于 2016-06-15 19:04:52 发布

阅读量5.7k

点赞数 6

CC 4.0 BY-SA版权

分类专栏： Deep Learning caffe学习笔记文章标签： caffe CNN solver SGD DL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/happyxieqiang/article/details/51683453

本文详细介绍了Caffe中的Solver，特别是Stochastic Gradient Descent (SGD) Solver的工作原理和参数设置技巧。Solver负责通过forward和backward计算更新深度神经网络的参数，以最小化loss。内容涵盖solver的作用、分类、SGD理论、参数调整建议，并引用了相关参考资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

solver是caffe中一个很重要的概念，简单来说solver通过不断 forward和backward计算梯度，用计算得到的梯度对模型进行优化，更新深度神经网络各层的参数，使得loss最小以使模型更好地拟合数据。

1. solver的作用及分类

在caffe中封装的有以下几种solver：

Stochastic Gradient Descent (type: “SGD”)
AdaDelta (type: “AdaDelta”)
Adaptive Gradient (type: “AdaGrad”)
Adam (type: “Adam”)
Nesterov’s Accelerated Gradient (type: “Nesterov”)
RMSprop (type: “RMSProp”)

在以上solver中比较常用的Stochastic Gradient Descent（SGD），也即随机梯度下降，其他的solver我还暂时没有用到过。

solver主要进行以下工作：

定义并生成一个网络用来训练和测试
反复迭代对网络进行forward和backward计算并更新网络参数
根据给定参数定期对训练中的网络进行测试评估
根据所给参数在训练过程中定期保存网络权重

solver从最开始初始化的网络模型开始在每次迭代计算过程中都将进行：

调用forward function 计算网络输出和loss
调用backward function 计算梯度
根据所选solver类型的不同相应地根据计算得到的梯度更新网络参数
根据所选学习率、solver的类型和历史数据更新solver状态

2. 理论介绍

solver把最优化深度神经网络当做最小化loss的过程。比如有一个含有 $D$ 个训练数据的数据集，我们最优化（也即最小化)的目标就是这 $D$ 个数据的平均loss，也即：

L (W) = 1 | D | \sum i | D | f W (X (i)) + λ r (W)

$L(W)=\frac{1}{\left | D \right |}\sum_{i}^{\left | D \right |}f_{W}(X^{(i)})+\lambda r(W)$
其中，

fW(X(i)) $f_{W}(X^{(i)})$ 是在单个数据

X(i) $X^{(i)}$ 上的loss ,

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。