自然语言处理中的深度学习优化与工具应用
1. 基于梯度下降的优化方法
在开发智能系统时,我们常使用基于梯度下降的方法,让机器从数据中学习识别模式。其最终目标是找到局部最小值,目标函数是机器的最终预测结果。在梯度下降算法中,我们并非一步到位实现目标函数的最优,而是通过迭代小步选择中间最优选项,逐步接近局部最小值。
1.1 基本梯度下降
基本梯度下降需要计算整个训练数据集上损失函数关于参数的梯度,每次更新都要考虑整个数据集和所有参数,因此速度非常慢。
- 公式 :可参考 此处 的图 9.58。
- 示例代码 :可参考 此处 的图 9.59。
1.2 随机梯度下降
随机梯度下降针对每个训练示例和标签更新参数,只需在训练数据集上添加一个循环,相较于基本梯度下降,参数更新速度更快。
- 公式 :可参考
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



