转置卷积理论解释（输入输出大小分析）

最新推荐文章于 2025-05-11 09:48:38 发布

原创

最新推荐文章于 2025-05-11 09:48:38 发布 · 1.8k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习

本文深入探讨了转置卷积的概念及其在图像分割中的应用，分析了转置卷积与普通卷积之间的联系，并详细推导了转置卷积的输入输出形状计算公式。

转置卷积

转置卷积是在图像分割领域中常用到的一种上采样措施，在U-Net,FCN中都有它的身影，其主要的目的也就是将低分辨率的特征图样上采样到原始图像的分辨率大小，以给出原始图片的分割结果。转置卷积又名反卷积、分数步长卷积，但实际上转置卷积并不是卷积的逆过程，只是输入输出在形状上对应而已，举个例子，步长为2的卷积可以实现将输入特征图样缩小到原大小的1/4，而转置卷积则可以将缩小后的特征图样复原到原始大小，但是对应位置处的值并不同。

卷积和转置卷积的联系

为了介绍转置卷积，首先我们需要回顾一下卷积的原理，一般情况下，卷积操作是将原图中一块矩形区域的建立局部联系，映射到输出特征图样的一个值，是区域->个体的映射¹。如下例子所示：
在这里插入图片描述
当然这种情况下我们很难看出卷积这一操作如何实现求逆或者求反（频域的方法先按下不表），因此我们可以将卷积的操作用更为规整的矩阵相乘形式来表示，将输入图像 $X$ 和输出特征图样 $Y$ 展平，将卷积核的元素嵌入到稀疏矩阵的对应位置处构成权重矩阵 $W$ ，则卷积可以表述为²：
$Y = W X$
具体的过程演示可以参见下图³：
在这里插入图片描述

那么相应的如果我们想要通过 $X$ 来求 $Y$ ，很直接的想法就是权重矩阵求逆后左乘，但权重矩阵并不为方阵，因此我们能做的只是构建一个满足左乘 $Y$ 的输出结果与 $X$ 相同的新矩阵，即满足shape(W’)=shape(W)：
$X=W'^TY$

同时要保证这一矩阵的映射关系是个体->区域的，且前后位置对应关系不变，满足这样条件的新矩阵也恰好可以也构成一个卷积核满足和 $Y$ 卷积的需求，对应于矩阵相乘的操作就又可以转化为卷积操作。从而转置卷积也被称之为逆卷积，但实际上并不是在矩阵求逆，或者逆卷积，而是权重矩阵的转置（也不确切，因为值并不相同，只是形状相同）。
在这里插入图片描述

转置卷积输出形状解析

前一小结的内容和网络上相关分析都大同小异，但关于转置卷积输入输出形状的分析却缺乏一个统一口径，往往是从现有函数或者转置卷积本身出发，没有联系到转置卷积和卷积的内在关系。因此，本节将从理论角度出发，推导转置卷积输入输出参数间的关系，从而确定计算公式。

卷积输入输出参数

首先对于普通的卷积过程而言，输入输出大小的确定十分简单，满足下述公式：
$W_2=\frac{W_1+2P_1-F_1}{S_1}+1\tag{1}$
该式非常好理解， $W_1+2P$ 为填充之后图片的长度， ${W_1+2P_1-F_1}$ 为图中最后可以容纳一个卷积核身位的位置， $\frac{W_1+2P_1-F_1}{S_1}$

最低0.47元/天解锁文章