[深度学习]转置卷积(Transposed Convolution)

最新推荐文章于 2025-06-20 17:16:58 发布

原创最新推荐文章于 2025-06-20 17:16:58 发布 · 8k 阅读

13 ·

CC 4.0 BY-SA版权

深度学习与计算机视觉同时被 2 个专栏收录

19 篇文章

订阅专栏

Tensorflow

3 篇文章

订阅专栏

本文以初学者角度出发，简洁地介绍了转置卷积的概念及其在TensorFlow中的实现方法，并通过示例展示了卷积与转置卷积的区别。

一.写在前面

在GAN（Generative Adversarial Nets，直译为生成式对抗网络）中，生成器G利用随机噪声Z，生成数据。那么，在DCGAN中，这部分是如何实现呢？这里就利用到了Transposed Convolution（直译为转置卷积），也称为Fractional Strided Convolution。那么，接下来，从初学者的角度，用最简单的方式介绍什么是转置卷积，以及在Tensorflow中如何实现转置卷积。

二.卷积与矩阵相乘

考虑如下卷积层运算，其参数为(i=4,k=3,s=1,p=0)，输出o=2。

输入：4 × 4 --> 16 × 1

输入矩阵的大小为4×4,将矩阵按照从左到右，从上到下的方式，变形为长度为16的一维向量。

示意图：

a00	a01	a02	a03
a10	a11	a12	a13
a20	a21	a22	a23
a30	a31	a32	a33

a00

a01

a02

a03

a10

a11

a12

a13

a20

a21

a22

a23

a30

a31

a32

a33

卷积核：3 × 3 --> 4 × 16

按照卷积操作的原理，将3 × 3的矩阵，变形为4 × 16 的矩阵。

示意图：

w00	w01	w02
w10	w11	w21
w20	w21	w22

w00	w01	w02	0	w10	w11	w12	0	w20	w21	w22	0	0	0	0	0
0	w00	w01	w02	0	w10	w11	w12	0	w20	w21	w22	0	0	0	0
0	0	0	0	w00	w01	w02	0	w10	w11	w12	0	w20	w21	w22	0
0	0	0	0	0	w00	w01	w02	0	w10	w11	w12	0	w20	w21	w22

输出：Y = CX，（4×16） × （16×1） = （4×1），则是一个[4,1]的输出特征矩阵，把它重新排列为2×2的输出特征矩阵，就可以得到最终的结果。

因此，卷积层的计算可以转换为矩阵之间相乘。对于同一个卷积核，卷积操作是Y=C × X，那么转置卷积操作可以理解为Y=Transposed(C) × T。

输入：2 × 2 --> 4 × 1

矩阵C的转置：16 × 4

输出： Y = CX，（16×4） × （4×1） = （16×1），则是一个[16,1]的输出特征矩阵，把它重新排列为4×4的输出特征矩阵，就可以达到转置卷积的效果。

三.直观理解

下面只考虑No zero padding, unit strides的情况。

举例，输入图像大小为2×2，想得到输出图像大小为4×4。

思维模式1：假设输入图像大小为4×4,输出图像大小为2×2。在正向卷积中，卷积核的高度和宽度均为3，步长s=1，边距p=0。将该卷积过程转置即可。

思维模式2：直接卷积。输入图像大小为2×2，卷积核的大小为3×3，步长s=1，边距p=2。

示意图如下：

此时，卷积核和步长均没有变化。只有边距变为2。

如何理解边距p=2?

可以通过卷积操作中输入与输出图像的联系来理解。例如，输出图像的左上角的像素只与输入图像的左上角的像素有关，输出图像的右下角的像素只与输入图像的右下角的像素有关。因此，卷积核在做卷积时，要输出最右最上角的一个像素，只会利用输入图像的最右最上角的一个像素，其他区域均会填充0。因此，边距p的大小为（卷积核的大小-1）。

本文只用于快速理解转置卷积，其他情况的理解，可参考http://deeplearning.net/software/theano_versions/dev/tutorial/conv_arithmetic.html

四.在Tensorflow中实现转置卷积

[API]:

conv2d_transpose(value,
filter,
output_shape,
strides,
padding="SAME",
data_format="NHWC",
name=None)

Args:
value: 四维tensor，类型为float，默认shape为[batch, height, width, in_channels]。`NHWC`格式，shape为[batch, height, width, in_channels]；`NCHW` 格式，shape为[batch, in_channels, height, width]。

filter: 四维tensor，类型与value相同，shape为[height, width, output_channels, in_channels]。in_channels必须与value中的in_channels相同。
output_shape: 一维tensor，表示转置卷积操作输出的shape。取值为，[batch, height, width, in_channels]。
strides:步长。
padding:`'VALID'` 或者`'SAME'`.

令W为输入的size，F为filter的size， S为步长，⌈⌉为向上取整符号。

对于‘VALID’，输出的形状计算如下：

new_height=new_width=⌈(W–F+1)S⌉

对于‘SAME’，输出的形状计算如下：

new_height=new_width=⌈WS⌉

举例，当步长为2时，余下的窗口只有一列。此时，’VALID‘会将剩余的列进行舍弃，’SAME‘会用0将不够的列进行填充。
data_format: 'NHWC'或者 'NCHW'。
name: 返回的tensor的名称（可选）。

Returns:
转置卷积操作的输出结果，与value具有相同类型的tensor。

需要注意的是：

1.output的shape不能随意指定，需要是可以经过filter，strides，padding可以得到的shape。

2.tf.nn.conv2d中的filter参数为[filter_height, filter_width, in_channels, out_channels]，与tf.nn.conv2d_transpose中的filter的参数顺序不同。

3.conv2d_transpose会计算output_shape能否通过给定的filter,strides,padding计算出inputs的维度，如果不能，则报错。

也就是说，conv2d_transpose中的filter,strides,padding参数，与反过程中的conv2d的参数相同。

举例：

# coding:utf-8
import tensorflow as tf

def main(_):
    # 输入4×4的单通道图像
    input_ = tf.constant(1., shape = [1,4,4,1])
    # 卷积核的大小为3×3×1,个数为1
    w = tf.constant(1., shape = [3,3,1,1])
    # 卷积：输出2×2的单通道图像
    result= tf.nn.conv2d(input_, w, strides=[1, 1, 1, 1], padding='VALID')
    # 转置卷积：输出4×4的单通道图像
    result2= tf.nn.conv2d_transpose(result, w, output_shape=[1,4,4,1], strides=[1, 1, 1, 1], padding='VALID')
    with tf.Session() as sess:
        init = tf.global_variables_initializer()
        sess.run(init)
        print '输入4×4的单通道图像'
        print sess.run(input_)
        print '卷积：输出2×2的单通道图像'
        print sess.run(result)
        print '转置卷积：输出4×4的单通道图像'
        print sess.run(result2)
        
if __name__ == '__main__':
    tf.app.run()

运行结果：