自然语言理解与生成中的深度学习及高级工具应用
1. 基于梯度下降的优化方法
在深度学习中,基于梯度下降的优化方法是非常重要的一部分。我们借助梯度下降法来开发智能系统,让机器学会从数据中识别模式,目标是找到局部最小值,使目标函数(即机器的最终预测或生成结果)达到最优。
1.1 基本梯度下降
基本梯度下降法需要计算整个训练数据集上损失函数关于参数的梯度,每进行一次参数更新都要考虑整个数据集和所有参数,因此速度很慢。其公式可参考 此处 ,示例逻辑代码也可在同一链接找到。
1.2 随机梯度下降
随机梯度下降法针对每个训练示例和标签更新参数,只需在训练数据集上添加一个循环,相比基本梯度下降法更新参数更快。其公式可参考 此处 ,示例逻辑代码同样可在该链接找到。不过,这种方法会使收敛变得复杂,有时参数更新过快,算法可能会越过局部最小值而持续运行。
1.3 小批量梯度下降
小批量梯度下降法结合了基本梯度下降和随机梯度下降的优点,它选取训练数据集的一个子集作为一个批次,然后根据这些批次更新参数,常用于基本类型的人工神经网络。其公式可参考
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



