卷积convolution函数详解及反向传播中的梯度求导

最新推荐文章于 2024-10-31 15:10:57 发布

原创

最新推荐文章于 2024-10-31 15:10:57 发布 · 4.6k 阅读

9 ·

CC 4.0 BY-SA版权

本文深入探讨卷积概念，详细定义了卷积运算，并重点解析了反向传播过程中，误差值对输入X、权重W和偏置b的梯度推导，包括无重叠、行重叠、列重叠和行列重叠四种情况。同时，提供了编程实现的简化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

本文给出 convolution 函数的定义, 并求解其在反向传播中的梯度

正文

1. 概念

灰度图片单通道卷积 :
在这里插入图片描述
图片来源 : https://github.com/vdumoulin/conv_arithmetic

RGB图片三通道分别卷积, 将三个实数值结果相加 :
在这里插入图片描述
图片来源 : http://cs231n.github.io/convolutional-networks/

关于卷积的概念, 网络上已经有大量的详细资料, 都讲的很好, 这里就不再赘述了.

2. 卷积的定义

本文约定矩阵元素的脚标从 0 开始.

当 X 为 m x n 矩阵, W 为 2 x 2 矩阵, 步长为 1 时 :
$y_{ij} = \sum_{i=0}^{m-2}\sum_{j=0}^{n-2}(x_{i,j}w_{00} + x_{i,j+1}w_{01}+x_{i+1,j}w_{10} + x_{i+1,j+1}w_{11}) + b\\ \;\\ i\leqslant m-2 \\ \;\\ j\leqslant n-2 \\$
当 X 为 m x n 矩阵, W 为 p x q 矩阵, 步长为 1 时 :
$y_{ij} =\sum_{r=0}^{p-1}\sum_{s=0}^{q-1}x_{i+r,j+s}w_{rs}+ b\\ \;\\ i\leqslant m-p\\ \;\\ j\leqslant n-q\\$
当 W 为 p x q 矩阵, 步长为 t, 为保证整除, 填充后的 X 是 m x n 矩阵时 :
$y_{ij} = \sum_{r=0}^{p-1}\sum_{s=0}^{q-1}x_{i\cdot t+r,j\cdot t+s}w_{rs}+b\\ \;\\ i\leqslant (m-p)/t\\ \;\\ j\leqslant (n-q)/t\\$

偏置 b 为标量.

3. 反向传播

3.1 误差值对 X 的梯度的理论推导

当 W 为 p x q 矩阵, 步长为 t, 为保证整除, 填充后的 X 是 m x n 矩阵, 经 conv 卷积得到矩阵 g x h 矩阵 Y, 往前 forward 传播得到误差值 error (标量 e ). 上游的误差梯度向量 $\nabla e_{(Y)}$ 已在反向传播时得到, 求 e 对 X 的梯度.

已知 :
$y_{ij} = \sum_{r=0}^{p-1}\sum_{s=0}^{q-1}x_{i\cdot t+r,\;j\cdot t+s}w_{rs}+b\\ \;\\ i\leqslant (m-p)/t\\ \;\\ j\leqslant (n-q)/t\\$