斯坦福cs231n学习笔记(5)------反向传播算法(BP)

本文详细介绍了反向传播(BP)算法在神经网络中的应用。通过实例展示了BP如何利用链式法则逐层计算损失函数对每个参数的梯度,从而在多层网络中进行权重更新。 BP算法在复杂的神经网络结构中,如CNN和RNN中扮演关键角色,解决了多隐藏层网络的优化问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

在前几篇文章中,我们学习到如何在训练集上设置权重,并由此计算出损失(loss),其中loss是有两部分组成,分别是数据损失项和正则化损失项。我们最终想要得到损失函数关于权重矩阵w的梯度表达式,然后进行优化。我们采用梯度下降算法,进行迭代运算,计算梯度进行权值的更新,并一直循环执行这个操作。最后会停留在一个损失函数的低值点,我们得到的这个低值点就等价于对基于训练集的分数结果进行良好的预测。
计算梯度的方法有两种:

(1)数值梯度(Numerical gradient):
利用表达式直接进行计算,但是对于数据量过大的情况下,运算太慢,不切实际。
(2)解析梯度(Analytic gradient):
利用微积分公式计算得到,运算速度很快,但有时会得到错误的结果。
所以,我们会综合以上两种方式,进行梯度检查的操作,先通过运算得到解析梯度,然后用数值梯度二次检查它的准确性。

二、引入BP

以上知识的回顾,让我们会有这样的疑问,我们已经利用梯度下降(Gradient descent)的方式很好的解决了得到最小损失w的问题,为什么还要提出BP反向传播算法?答案是纵然梯度下降神通广大,但却不是万能的。梯度下降可以应对带有明确求导数的情况,或者是说直接用上面的表达式计算的情况,比如逻辑回归(Logistic Regression),我们可以把它看做没有隐藏层的网络;但对于多隐藏层的神经网络,输出层可以直接求出误差来更新参数,但其中隐藏层的误差是不存在的,因此不能对它直接应用梯度下降,而是先将误差反向传播至隐藏层,然后再应用梯度下降,其中将误差从末层往前传递的过程需要链式法则(Chain Rule)的帮助,因此反向传播算法可以说是梯度下降在链式法则中的应用。
进一步解释:

这是我们所熟悉的cnn的结构,有着输入层和多层隐藏层,我们利用表达式直接去一层一层计算是不和实际的,隐藏层的loss是无法用表达式来描述的。如果有研究过Neural Turing Machine的童鞋,应该清楚,cnn还不是最困难的,Neural Turing Machine计算图非常庞大,不仅仅如此,当运行完这个计算图后进入rnn,这个运算图被重复运行了几百次,最后是由成千个运算单元组成的“怪物”,所以这不可能用表达式来描述的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值