关于深度学习的问题笔记

在深度学习中,批处理的大小对训练过程有显著影响。损失平均通过除以batch_size使得梯度不受批大小影响,保持训练稳定性。较小的batch_size能引入更多噪音,有助于防止过拟合。另一方面,也可调整学习率来抵消批大小的变化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

感谢沐神教我深度学习🙏

损失为什么要平均?

平均即除以batch_size,若不除,则批越大梯度越大,梯度下降的步长就越大。除以batch_size可使梯度与批大小无关。也可以不在损失函数中除,将学习率lr除以batch_size也一样。参照下面公式(图片来自@跟李沐学AI  的动手学深度学习)

 批大小对训练的影响

批越小越好。随机梯度下降的随机会带来噪音,批越小,则噪音越大,对于神经网络来说,噪音是好事,可以抑制过拟合

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值