有关梯度下降和随机剃度下降的思考

随即梯度下降和梯度下降的主要区别是

剃度下降方法在参数训练时将所有数据训练一遍以后才更新各个新的梯度值

因此虽然更新“精准”,但是对计算时间和能力要求高


随机剃度下降的思路是在每次训练单个数据是进行一次梯度更新,而且选取的训练是随机的

这样做避免了过大的运算,但是导致训练噪声


所以是否可以考虑对部分数据进行训练而不是单个或全部呢,假设有10个训练数据,如果我们把他们分成2组进行梯度下降训练

而且每次这两组都是随机分成的,这样是否会得到一个折衷的结果呢?


我会针对这个问题自己去找找资料,如果有大牛懂的话希望给新手一些指点哈~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值