学习笔记5 Supervised Convolutional Neural Network 之 Stochastic Gradient Descent

本文介绍了随机梯度下降(SGD)的基本概念及其相较于批量梯度下降的优势,包括节省时间及整体趋势向收敛方向发展等特点。文中还探讨了SGD中学习速率随迭代变化的方法,并引入了动量项momentum来提高训练效率。

一、随机梯度下降

对比于批量梯度下降,随机梯度下降能够节省更多的时间,而且优化的整体趋势也是向着收敛的方向进行的。具体的优点,特点还有待进一步研究学习,这里先跳过。
随机梯度下降也有很多种方法。这里只介绍一种。

这里写图片描述

一般来说,学习速率是固定不变的,也就是是个常数。
但是,往往随着迭代的进行,学习速率需要改变。

这里写图片描述

这里增加了一个动量项momentum γ,还有velocity。
我们选择mini-batch的随机梯度方法,每一次用 mini-batch 数量的样本来训练,在这里还要注意一点,我们一般需要将样本进行打乱,也就是随机抽取。
接下来,首先设置epoch(时代),随着epoch的增加,α变小,比如,每增加一个epoch,  α缩小一倍。而γ一般初始化为0.5,随着迭代增加而改变,比如,当迭代次数达到20次的时候变为0.9.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值