梯度下降与神经网络学习机制详解
1. 梯度下降的类型
在机器学习中,梯度下降是一种常用的优化算法,用于更新模型的权重以最小化损失函数。根据更新权重的方式不同,梯度下降可以分为以下三种类型:
- 随机梯度下降(Stochastic Gradient Descent) :每次只使用一个样本数据来更新权重。具体来说,它会对每个训练样本分别进行预测和权重更新。例如,对于一个街灯数据集,它会先处理第一个街灯数据,尝试进行预测,计算权重变化量(weight_delta),然后更新权重,接着再处理第二个街灯数据,以此类推。通过多次遍历整个数据集,直到找到一组对所有训练样本都适用的权重配置。
- 全梯度下降(Full Gradient Descent) :每次使用整个数据集来更新权重。网络会计算整个数据集上的平均权重变化量,只有在计算完完整的平均值后才会改变权重。
- 批量梯度下降(Batch Gradient Descent) :选择一个批量大小(通常在 8 到 256 之间)的样本,在处理完这一批样本后更新权重。这种方式介于随机梯度下降和全梯度下降之间。
下面是这三种梯度下降方法的对比表格:
| 梯度下降类型 | 更新方式 | 特点 |
| — | — | — |
| 随机梯度下降 | 每次一个样本 | 计算速度快,但可能会有较大的波动 |
| 全梯度下降 | 每次整个数据集 | 收敛稳定,但计算成本高 |
| 批量梯度下降 | 每次一批样本 | 平衡了计算速度和收敛稳定性 |
超级会员免费看
订阅专栏 解锁全文
4629

被折叠的 条评论
为什么被折叠?



