PyTorch版本DCGAN实现的注解

PyTorch DCGAN实现详解与关键点解析

最新推荐文章于 2025-07-21 00:31:23 发布

卡尔曼和玻尔兹曼谁曼

最新推荐文章于 2025-07-21 00:31:23 发布

阅读量1w

点赞数 7

CC 4.0 BY-SA版权

分类专栏：机器学习笔记

本文为博主原创文章，转载请注明原文出处！

本文链接：https://blog.youkuaiyun.com/theonegis/article/details/80233968

这篇博客详细注解了PyTorch中DCGAN的实现，包括数据预处理、生成网络和训练过程。重点讨论了数据预处理中的图像尺度调整、数值范围转换，生成网络的逆卷积层设置，以及训练过程中判别网络和生成网络的交替训练策略。此外，还提到了训练过程中的技巧，如固定生成网络在判别网络训练时的更新，以及保存特定步数的模型输出。

PyTorch版本DCGAN实现的注解

该篇博文是对PyTorch官方Examples中DCGAN（Deep Convolution Generative Adversarial Networks）实现过程中的一些细节要点的注解

首先是对该脚本运行参数的一些说明：

—dataset 指定训练数据集
—dataroot 指定数据集下载路径或者已经存在的数据集路径
—workers DataLoader进行数据预处理及数据加载使用进程数
—batchSize 一次batch进入模型的图片数目
—imageSize 原始图片重采样进入模型前的大小
—nz 初始噪音向量的大小（Size of latent $z$ vector）
—ngf 生成网络中基础feature数目（随着网络层数增加，feature数目翻倍）
—ndf 判别网络中基础feature数目（随着网络层数增加，feature数据翻倍）
—niter 网络训练过程中epoch数目
—lr 初始学习率
—beta1 使用Adam优化算法中的 $\beta_1$ 参数值
—cuda 指定使用GPU进行训练
—netG 指定生成网络的检查点文件（保存的生成网络的权值文件）
—netD 指定判别网络的检查点文件（保存的判别网络的权值文件）
—outf 模型输出图片以及检查点文件的保存路径
—manualSeed 指定生成随机数的seed

下面说一下我自己认为比较重要的一些细节点：

数据预处理

我以CIFAR10数据集举例，原始数据是 $32 \times 32$ 的图片，在数据加载过程中，我们使用transforms.Compose()将一系列预处理变换进行组合，transforms.Resize()将图片重采样到指定大小，transforms.ToTensor()将PIL Image或者numpy.ndarray对象转为tensor并且将原来[0, 255]的取值范围，变为[0.0, 1.0]的取值范围。最后，transforms.Normalize()将图像范围转变为[-1, 1].

transforms.Normalize（）的第一个参数是平均值，第二个参数是标准差，图像有几个channel，给定的平均值和标准差应该有多大的Size. transforms.Normalize的计算过程是这样的：input[channel] = (input[channel] - mean[channel]) / std[channel].

这些操作在DataLoader每次迭代过程中计算，而不是直接作用在Dataset原始数据集上面

生成网络

生成网络中主要使用了5个逆卷积层将原始的噪音数据扩展成 $64 \times 64$ 的图片，卷积核的大小是 $4 \times 4$ ， feature maps个数的变化依次是 $ngf \times 8$ -> $ngf \times 4$ -> $ngf \times 2$ -> $ngf$ ->