简单理解ConvNet层的Backpropagation

最新推荐文章于 2023-10-17 13:54:26 发布

原创最新推荐文章于 2023-10-17 13:54:26 发布 · 322 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#卷积神经网络

DL 专栏收录该内容

9 篇文章

订阅专栏

这篇博客详细介绍了二维卷积神经网络在strides等于1时的前向传播和反向传播过程。在前向传播中，通过滤波器进行卷积计算每个输出单元。而在反向传播中，利用链式法则推导出误差δ的传播，发现反向传播同样是一个卷积操作，但可能需要填充以保持输出尺寸。此外，还讨论了权重梯度的计算。当strides不等于1时，提出通过在输出矩阵间插入0来调整计算。

这里只谈一下二维的情况，也就是channel = 1, strides = 1的情况下，单就这一层的计算.

ConvNet forward propagation

filter’s shape: [height, length, 1]
CNN forward

$yi,j=Σn=0lengthΣm=0heightWm,nxi+m,j+ny_{i,j} = \Sigma_{n=0}^{length}\Sigma_{m=0}^{height} W_{m,n}x_{i+m,j+n}$

ConvNet backpropagation

对于该层，我们首先已知 $∂L∂yi,j\frac{\partial{L}}{\partial y_{i,j}}$ , 我们将他重新命名为 $δyi,j\delta{y_{i,j}}$
首先用全微分用 $W, x$ 来表达 $dy_{i,j}$ :
$dyi,j=Σn=0lengthΣm=0heightdWm,nxi+m,j+n+Σn=0lengthΣm=0heightWm,ndxi+m,j+ndy_{i,j} = \Sigma_{n=0}^{length}\Sigma_{m=0}^{height} dW_{m,n}x_{i+m,j+n} + \Sigma_{n=0}^{length}\Sigma_{m=0}^{height} W_{m,n}dx_{i+m,j+n}$
从上式我们可以看出：
$∂yi,j∂xi+m,j+n=Wm,n\frac{\partial y_{i,j}}{\partial x_{i+m,j+n}} = W_{m,n}$
而通过链式法则
$∂L∂xi,j=Σh,k∂yi−h,j−k∂xi,j∂L∂yi−h,j−k=Σh,kWh,k∂L∂yi−h,j−k\frac{\partial{L}}{\partial x_{i,j}} = \Sigma_{h,k} \frac{\partial y_{i-h,j-k}}{\partial x_{i,j}}\frac{\partial{L}}{\partial y_{i-h,j-k}} = \Sigma_{h,k} W_{h,k} \frac{\partial{L}}{\partial y_{i-h,j-k}}$
这个等式告诉我们，其实ConvNet的Backpropagation其实也是一个ConvNet，不过需要做一定的padding, padding的量为[height, width]，这个结果应该就是很多代码中的element-wise operation。
Question: 如果 strides != 1呢？
Answer(我也不知道对不对): if strides.shape = (stride1, stride2)个人认为解决方法可以是对输出矩阵Y各元素之间加上(stride1-1, stride2-1)个0
另外还有 $∂L∂Wi,j\frac{\partial{L}}{\partial W_{i,j}}$
$∂L∂Wi,j=Σh,k∂yi−h,j−k∂Wi,j∂L∂yi−h,j−k=Σh,kxh,k∂L∂yi−h,j−k\frac{\partial{L}}{\partial W_{i,j}} = \Sigma_{h,k} \frac{\partial y_{i-h,j-k}}{\partial W_{i,j}}\frac{\partial{L}}{\partial y_{i-h,j-k}} = \Sigma_{h,k} x_{h,k} \frac{\partial{L}}{\partial y_{i-h,j-k}}$