全连接与卷积神经网络反向传播公式推导

本文详细介绍了全连接与卷积神经网络的反向传播公式,通过推导展示了BP算法中关键的梯度计算过程,包括全连接网络的δ递推公式和矩阵形式,并简要提到了卷积网络的反向传播理论。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

全连接与卷积神经网络反向传播公式推导

全连接网络反向传播公式

BP四项基本原则:

δ i ( L ) = ▽ y i C o s t ⋅ σ ′ ( l o g i t i ( L ) ) δ i ( l ) = ∑ j δ j ( l + 1 ) w j i ( l + 1 ) σ ′ ( l o g i t i ( l ) ) ∂ C o s t ∂ b i a s i ( l ) = δ i ( l ) ∂ C o s t ∂ w i j ( l ) = δ i ( l ) h j ( l − 1 ) \begin{aligned} \delta_i^{(L)} &= \bigtriangledown_{y_i} Cost \cdot \sigma'(logit_i^{(L)}) \\ \delta_i^{(l)} &= \sum_j \delta_j^{(l+1)} w_{ji}^{(l+1)} \sigma'(logit_i^{(l)}) \\ \frac{\partial Cost}{\partial bias_i^{(l)}} &= \delta_i^{(l)} \\ \frac{\partial Cost}{\partial w_{ij}^{(l)}} &= \delta_i^{(l)} h_j^{(l-1)} \end{aligned} δi(L)δi(l)biasi(l)Costwij(l)Cost=yiCostσ(logiti(L))=jδj(l+1)wji(l+1)σ(logiti(l))=δi(l)=δi(l)hj(l1)

其中, ( l ) (l) (l)表示第 l l l层,一共有L层, i , j i,j i,j表示当前层神经元的序号。

反向传播公式的目的主要是得到: ∂ C o s t ∂ b i a s i ( l ) \frac{\partial Cost}{\partial bias_i^{(l)}} biasi(l)Cost ∂ C o s t ∂ w i j ( l ) \frac{\partial Cost}{\partial w_{ij}^{(l)}} wij(l)Cost

在推导的过程中

∂ C o s t ∂ b i a s i ( l ) = ∂ C o s t ∂ l o g i t i ( l ) ⋅ ∂ l o g i t i ( l ) ∂ b i a s i ( l ) ∂ C o s t ∂ w i j ( l ) = ∂ C o s t ∂ l o g i t i ( l ) ⋅ ∂ l o g i t i ( l ) ∂ w i j ( l ) \begin{aligned} \frac{\partial Cost}{\partial bias_i^{(l)}} &= \frac{\partial Cost}{\partial logit_i^{(l)}} \cdot \frac{\partial logit_i^{(l)}}{\partial bias_i^{(l)}} \\ \frac{\partial Cost}{\partial w_{ij}^{(l)}} &= \frac{\partial Cost}{\partial logit_i^{(l)}} \cdot \frac{\partial logit_i^{(l)}}{\partial w_{ij}^{(l)}} \end{aligned} biasi(l)Costwij(l)Cost=logiti(l)Costbiasi(l)logiti(l)=logiti(l)Costwij(l)logiti(l)

会发现都要用到 ∂ C o s t ∂ l o g i t i ( l ) \frac{\partial Cost}{\partial logit_i^{(l)}} logiti(l)Cost

l o g i t i ( l ) = w i j ( l ) h j ( l ) + ∑ k ≠ j w i k ( l ) h k ( l ) + b i a s i ( l ) logit_i^{(l)} = w_{ij}^{(l)} h_j^{(l)} + \sum_{k\ne j} w_{ik}^{(l)} h_{k}^{(l)} + bias_i^{(l)} logiti(l)=wij(l)hj(l)+k=jwik(l)hk(l)+biasi(l)

所以

∂ l o g i t i ( l ) ∂ b i a s i ( l ) = 1 ∂ l o g i t i ( l ) ∂ w i j ( l ) = h j ( l ) \begin{aligned} \frac{\partial logit_i^{(l)}}{\partial bias_i^{(l)}} &= 1 \\ \frac{\partial logit_i^{(l)}}{\partial w_{ij}^{(l)}} &= h_j^{(l)} \end{aligned} biasi(l)logiti(l)wij(l)logiti(l)=1=hj(l)

那接下来的问题就只有求 ∂ C o s t ∂ l o g i t i ( l ) \frac{\partial Cost}{\partial logit_i^{(l)}} logiti(l)Cost了,求它可以用递推法:

为公式看起来简洁,我们把 ∂ C o s t ∂ l o g i t i ( l ) \frac{\partial Cost}{\partial logit_i^{(l)}} logiti(l)Cost记为 δ i ( l ) \delta_i^{(l)} δi(l),那么

δ i ( l ) = ∂ C o s t ∂ l o g i t i ( l ) = ∑ j ∂ C o s t ∂ l o g i t j ( l + 1 ) ⋅ ∂ l o g i t j ( l + 1 ) ∂ l o g i t i ( l ) = ∑ j δ j ( l + 1 ) ⋅ ∂ l o g i t j ( l + 1 ) ∂ l o g i t i ( l ) \delta_i^{(l)} = \frac{\partial Cost}{\partial logit_i^{(l)}} = \sum_j \frac{\partial Cost}{\partial logit_j^{(l+1)}} \cdot \frac{\partial logit_j^{(l+1)}}{\partial logit_i^{(l)}} = \sum_j \delta_j^{(l+1)} \cdot \frac{\partial logit_j^{(l+1)}}{\partial logit_i^{(l)}} δi(l)=logiti(l)Cost=jlogitj(l+1)Costlogiti(l)logitj(l+1)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值