深度学习之DCGAN

原创

已于 2024-05-06 21:01:40 修改 · 1.4k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #DCGAN

于 2024-05-06 20:45:15 首次发布

博客先介绍了转置卷积，它是一种特殊上采样方式，可由特征图得到原图。接着阐述DCGAN，即深度卷积生成对抗网络，在Original GAN基础上结合CNN与GAN处理图像，还给出其生成器和判别器代码，最后展示完整代码运行结果，生成图片接近真实图片。

须知

在讲解DCGAN之前我们首先要了解转置卷积和GAN

关于GAN在这片博客中已经很好的说明了：深度学习之GAN网络-优快云博客

接下来简单的介绍一下转置卷积。

转置卷积

首先要了解卷积，关于卷积是什么可以看我的这篇博客：深度学习之CNN-优快云博客

我们的卷积就是一种很典型的下采样方式，他具有可学习的参数，通过不断的训练我们可以达到我们想实现的目的。

可以看到我们的图片的像素尺寸经过卷积之后缩小了，得到我们所说的特征图。

这个时候我们可以思考一个问题，我们可不可以通过得到的特征图得到我们原来的图像。

答案是可以的，这就用到了我们的转置卷积。

如图所示，我们的卷积核实际上在运行过程中是一个卷积矩阵，我们把一个图像数据给拉开，如下图所示

那么卷积操作实际上就是：

两个矩阵相乘

我们假设卷积矩阵为B，图像矩阵为A，卷积得到的特征矩阵为C，那么他们满足

A@B=C（@表示矩阵乘法）

那么 $A=CB^{-1}$

我们的B为正交矩阵（这个就不证明了），那么 $A=CB^{T}$ （上图如果用A，B，C表示的话，为： $BA=C$ ）

所以对于特征图C我们要是想得到原图A，那么只需要进行C和B的转置矩阵相乘就好。

用A，B，C表示

$B^{T}C=A$

由此得到了我们的转置矩阵，也由此得到了我们的转置卷积。

所以，转置卷积其实就是一种特殊的上采样方式，它里面包含了可控学习的参数，具有极强的实用性。

我们知道卷积的尺寸计算方法为：

w就是输入尺寸，k是过滤器尺寸，p是填充的大小，s是步幅。

我们将该公式换算一下就得到了转置卷积的尺寸计算方法了。

DCGAN

什么是DCGAN

DCGAN，全称是 Deep Convolution Generative Adversarial Networks（深度卷积生成对抗网络），是 Alec Radfor 等人于2015年提出的一种模型。该模型在 Original GAN 的理论基础上，开创性地将 CNN 和 GAN 相结合以实现对图像的处理，并提出了一系列对网络结构的限制以提高网络的稳定性。

DCGAN和GAN明显的区别就是，他的生成器使用的是转置卷积层，判别器使用的是卷积层。

论文：[1511.06434] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks (arxiv.org)

在论文中相较于GAN，他主要的变化为：

大致意思为：

第一：在全卷积网络（all convolutional net）上面，用步幅卷积（strided convolutions）替代确定性空间池化函数（deterministic spatial pooling functions）（比如最大池化），让网络自己学习downsampling方式。

第二：取消了全连接层。比如，使用全局平均池化（global average pooling）替代全连接层。global average pooling会降低收敛速度，但是可以提高模型的稳定性。GAN的输入采用均匀分布初始化，可能会使用全连接层(矩阵相乘),然后得到的结果可以reshape成一个4 维度的tensor，然后后面堆叠卷积层即可，在判别器里面，最后的卷积层可以先flatten拉展开为多维向量,然后送入一个sigmoid分类器。

第三：采用了批归一化（Batch Normalization），即将每一层的输入变换到0均值和单位方差（或者说转变到[0,1]范围内。）。

BN 被证明是深度学习中非常重要的加速收敛和减缓过拟合的手段。这样有助于解决初始化不良问题并帮助梯度走向更深的网络。防止生成器把所有随机输入都整合到一个点。

但是实践表明，将所有层都进行Batch Normalization，会导致样本震荡和模型不稳定，因此只对生成器(G)的输出层和鉴别器(D)的输入层使用BN。

Leaky Relu 激活函数：生成器(G)，输出层使用tanh 激活函数，其余层使用relu 激活函数。鉴别器(D)，都采用leaky rectified activation。

DCGAN生成器G的结构如下图所示：

生成器代码

class Generator(torch.nn.Module):
    def __init__(self):
        super(Generator,self).__init__()
        self.linear1=torch.nn.Linear(100,7*7*256)
        self.bn1=torch.nn.BatchNorm1d(7*7*256)
        self.uconv1=torch.nn.ConvTranspose2d(256,128,kernel_size=(3,3),padding=1)
        self.bn2=torch.nn.BatchNorm2d(128)
        self.uconv2 = torch.nn.ConvTranspose2d(128, 64, kernel_size=(4, 4),stride=2, padding=1)
        self.bn3 = torch.

最低0.47元/天解锁文章