神经网络中的梯度下降、相关性学习与特殊情况处理
1. 梯度下降的不同类型
在神经网络的学习过程中,梯度下降是一种常用的优化算法,它有不同的实现方式,主要包括随机梯度下降、全梯度下降和批量梯度下降。
1.1 随机梯度下降(Stochastic Gradient Descent)
随机梯度下降每次只使用一个样本对权重进行更新。具体来说,它会对每个训练样本分别进行预测和权重更新。例如,对于一个街灯数据集,它会先处理第一个街灯样本,尝试进行预测,计算权重的变化量(weight_delta),然后更新权重,接着再处理第二个街灯样本,以此类推。它会多次遍历整个数据集,直到找到一组对所有训练样本都适用的权重配置。
1.2 全梯度下降(Full Gradient Descent)
全梯度下降每次使用整个数据集来更新权重。与随机梯度下降不同,它不是针对每个训练样本更新一次权重,而是计算整个数据集上的平均权重变化量,只有在计算完一次完整的平均值后才会改变权重。
1.3 批量梯度下降(Batch Gradient Descent)
批量梯度下降是介于随机梯度下降和全梯度下降之间的一种方法。它选择一个批量大小(通常在 8 到 256 之间)的样本,在处理完这些样本后更新权重。
下面用表格总结这三种梯度下降方法:
| 梯度下降类型 | 更新方式 |
| — | — |
| 随机梯度下降 | 每次一个样本更新权重 |
| 全梯度下降 | 每次整个数据集更新权重 |
| 批量梯度下降 | 每批量样本更新权重 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



