深度学习之后向传输(BP)算法

本文详细介绍了神经网络中反向传播算法的工作原理及其在梯度下降法中的应用。通过数学推导解释了如何计算损失函数关于权重和偏置的梯度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

假设我们有一个固定样本集 (x(1),y(1)),,(x(m),y(m))。具体来讲,对于单个样例(x,y),其代价函数为:

J(W,b;x,y)=12hW,b(x)y2.

代价函数是其均方误差。对于整个样例我们可以定义整体代价函数为:

J(W,b)=[1mi=1mJ(W,b;x(i),y(i))]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2=[1mi=1m(12hW,b(x(i))y(i)2)]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2

以上公式中的第一项 J(W,b) 是一个均方差项。第二项是一个正则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过拟合。

[注:通常权重衰减的计算并不使用偏置项b(l)i,比如我们在 J(W,b)的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。这个权重衰减实际上是贝叶斯正则化方法的变种。在贝叶斯正则化方法中,我们将高斯先验概率引入到参数中计算MAP(极大后验)估计(而不是极大似然估计)。]

权重衰减参数λ用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义:J(W,b;x,y)是针对单样例的方差代价函数;J(W,b) 是整体样本代价函数,它包含权重衰减项。
以上的代价函数经常被用于分类和回归问题。在分类问题中,我们用 y=01,来代表两种类型的标签。

我们的目标是针对参数Wb来求其函数J(W,b)的最小值。为了求解神经网络,我们需要将每一个参数W(l)ijb(l)i 初始化为一个很小的、接近零的随机值(比如说,使用正态分布Normal(0,ϵ2)生成的随机值,ϵ 设置为 0.01),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 J(W,b)是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为0。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有 iW(1)ij都会取相同的值,那么对于任何输入x 都会有:a(2)1=a(2)2=a(2)3=)。随机初始化的目的是使对称失效。

梯度下降法中每一次迭代都按照如下公式对参数Wb进行更新:

W(l)ijb(l)i=W(l)ijαW(l)ijJ(W,b)=b(l)iαb(l)iJ(W,b)

其中α是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法,它是计算偏导数的一种有效方法。

我们首先来讲一下如何使用反向传播算法来计算 W(l)ijJ(W,b;x,y)b(l)iJ(W,b;x,y),这两项是单个样例(x,y)的代价函数 J(W,b;x,y)的偏导数。一旦我们求出该偏导数,就可以推导出整体代价函数J(W,b)的偏导数:

W(l)ijJ(W,b)b(l)iJ(W,b)=1mi=1mW(l)ijJ(W,b;x(i),y(i))+λW(l)ij=1mi=1mb(l)iJ(W,b;x(i),y(i))

以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于W 而不是b

反向传播算法的思路如下:给定一个样例(x,y),我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括hW,b(x) 的输出值。之后,针对第l 层的每一个节点 i,我们计算出其“残差”δ(l)i,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为 δ(nl)i(第nl层表示输出层)。对于隐藏单元我们如何处理呢?我们将基于节点(第 l+1 层节点)残差的加权平均值计算δ(l)i,这些节点以a(l)i作为输入。下面将给出反向传导算法的细节:

进行前馈传导计算,利用前向传导公式,得到L2,L3, 直到输出层Lnl的激活值。
对于第nl 层(输出层)的每个输出单元 i,我们根据以下公式计算残差:

δ(nl)i=z(nl)i12yhW,b(x)2=(yia(nl)i)f(z(nl)i)

δ(nl)i=znliJ(W,b;x,y)=znli12yhW,b(x)2=znli12j=1Snl(yja(nl)j)2=znli12j=1Snl(yjf(z(nl)j))2=(yif(z(nl)i))f(z(nl)i)=(yia(nl)i)f(z(nl)i)

l=nl1,nl2,nl3,,2的各个层,第 l层的第 i 个节点的残差计算方法如下:
δ(l)i=j=1sl+1W(l)jiδ(l+1)jf(z(l)i)

δ(nl1)i=znl1iJ(W,b;x,y)=znl1i12yhW,b(x)2=znl1i12j=1Snl(yja(nl)j)2=12j=1Snlznl1i(yja(nl)j)2=12j=1Snlznl1i(yjf(z(nl)j))2=j=1Snl(yjf(z(nl)j))z(nl1)if(z(nl)j)=j=1Snl(yjf(z(nl)j))f(z(nl)j)z(nl)jz(nl1)i=j=1Snlδ(nl)jz(nl)jznl1i=j=1Snlδ(nl)jznl1ik=1Snl1f(znl1k)Wnl1jk=j=1Snlδ(nl)jWnl1jif(znl1i)=j=1SnlWnl1jiδ(nl)jf(znl1i)

将上式中的nl1nl的关系替换为ll+1的关系,就可以得到:
δ(l)i=j=1sl+1W(l)jiδ(l+1)jf(z(l)i)

以上逐次从后向前求导的过程即为“反向传导”的本意所在。
下面计算我们需要的偏导数,计算方法如下:

W(l)ijJ(W,b;x,y)b(l)iJ(W,b;x,y)=a(l)jδ(l+1)i=δ(l+1)i.

最后,我们用矩阵-向量表示法重写以上算法。我们使用“” 表示向量乘积运算符(在Matlab或Octave里用“.*”表示,也称作阿达马乘积)。若 a=bc,则 ai=bici。在上一个教程中我们扩展了 f() 的定义,使其包含向量运算,这里我们也对偏导数 f()也做了同样的处理(于是又有f([z1,z2,z3])=[f(z1),f(z2),f(z3)])。

那么,反向传播算法可表示为以下几个步骤:
进行前馈传导计算,利用前向传导公式,得到L2,L3,直到输出层 Lnl的激活值。
对输出层(第nl层),计算:

δ(nl)=(ya(nl))f(z(nl))

对于 l=nl1,nl2,nl3,,2的各层,计算:

δ(l)=((W(l))Tδ(l+1))f(z(l))

计算最终需要的偏导数值:
W(l)J(W,b;x,y)b(l)J(W,b;x,y)=δ(l+1)(a(l))T,=δ(l+1).

实现中应注意:在以上的第2步和第3步中,我们需要为每一个 i 值计算其f(z(l)i)。假设f(z)是sigmoid函数,并且我们已经在前向传导运算中得到了a(l)i。那么,使用我们早先推导出的 f(z)表达式,就可以计算得到f(z(l)i)=a(l)i(1a(l)i)

最后,我们将对梯度下降算法做个全面总结。在下面的伪代码中,ΔW(l)是一个与矩阵W(l)维度相同的矩阵,Δb(l) 是一个与b(l) 维度相同的向量。注意这里ΔW(l)是一个矩阵,而不是ΔW(l)相乘”。下面,我们实现批量梯度下降法中的一次迭代:

对于所有l,令ΔW(l):=0 , Δb(l):=0 (设置为全零矩阵或全零向量)
对于 i=1m
使用反向传播算法计算W(l)J(W,b;x,y)b(l)J(W,b;x,y)
计算 ΔW(l):=ΔW(l)+W(l)J(W,b;x,y)
计算 Δb(l):=Δb(l)+b(l)J(W,b;x,y)
更新权重参数:

W(l)b(l)=W(l)α[(1mΔW(l))+λW(l)]=b(l)α[1mΔb(l)]

现在,我们可以重复梯度下降法的迭代步骤来减小代价函数 J(W,b)的值,进而求解我们的神经网络。

注:本文参考Ufldl教程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值