CycleGAN 论文阅读及代码实现

最新推荐文章于 2025-06-22 23:01:19 发布

原创

最新推荐文章于 2025-06-22 23:01:19 发布 · 5.2k 阅读

89 ·

CC 4.0 BY-SA版权

介绍

CycleGAN是2018年发表于ICCV17的一篇论文，可以让2个图片相互转化，也就是风格迁移，如马变为斑马，斑马变为马。
在这里插入图片描述

网络结构

在这里插入图片描述 CycleGAN总结构有4个网络，第一个为生成网络G:X—>Y;第二个网络为生成网络F:X—>Y。第三个网络为对抗网络命名为Dx，鉴别输入图像是否为X；第四个网络为对抗网络命名为Dy，鉴别输入图像是不是Y。如图，以马(X)和斑马(Y)为例，G网络将马的图像转化为斑马图像；F网络将斑马的图像转化为马的图像；Dx网络鉴别输入的图像是不是马；Dy网络鉴别输入图像是不是斑马。这4个网络仅有2个网络结构，即G和F都是生成网络，这两者的网络结构相同，Dx和Dy都是对抗性网络，这两者的网络结构相同。

Generator-生成网络

在这里插入图片描述以上网络主要有3种操作，卷积，反卷积和残差模块；卷积和反卷积后通常还有BN，激活函数等。

卷积

在这里插入图片描述

反卷积

在这里插入图片描述

残差模块

在这里插入图片描述残差网络最先是在ResNet中引出的可以有效的避免梯度消失，实现网络深度的提升。

Discriminator-对抗网络

在这里插入图片描述卷积后面通道都有BN层和激活函数，另外Discriminator的最终输出并不是0.0-1。0间的值，而是一个1616的矩阵，因此定义了这个1616矩阵的各个元素越接近0.9，则Loss越小，即是真值的概率越大。

Loss

G_loss

网络G的loss函数，由2部分组成，分别是cycle_loss和g_loss。

cycle_loss:G(x)生成了y’，F(G(x))即是生成的x’，则F(G(x))-x的绝对值的均值定为loss_x；F(y)生成x’，G(F(y))生成y’，则G(F(y))-y的绝对值的均值定为loss_y；cycle_loss=loss_x+loss_y；
- g_loss：G(x)是y’，则Dy(y’)每个元素减去0.9取平方，然后取平方均值定义为g_loss；
G_loss=cycle_loss+g_loss；

Dy_loss

网络Dy的loss函数，由2部分组成，分别是loss_real_y和loss_fake_y；

loss_real_y：Dy(y)是一个16x16矩阵，每个元素减去0.9后取平方，则各平方均值定义为loss_real_y；
loss_fake_y：G(x)生成一个y’，则Dy(G(x))相当于Dy(y’)，也是一个16x16矩阵，矩阵每个元素取平方，则各平方均值定义为loss_fake_y；

在这里插入图片描述 Dy_loss=loss_real_y+loss_fake_y；

F_loss

网络F的Loss函数，由2部分组成，分别是cycle_loss和f_loss；

cycle_loss同G_loss中的定义
f_loss：F(y)生成一个x’，Dx(x’)即Dx(F(y))是一个16x16的矩阵，每个元素减去0.9后取平方，各平方均值定义为f_loss；
F_loss=cycle_Loss+f_loss；

Dx_loss

网络Dx的loss函数，由两部分组成，分别是loss_real_x和loss_fake_x；

loss_real_x：Dx(x)是一个16x16矩阵，每个元素减去0.9后取平方，则各平方均值定义为loss_real_x；
loss_fake_x：F(y)生成一个x’，则Dx(F(y))相当于Dx(x’)，也是一个16x16矩阵，矩阵每个元素取平方，则各平方均值定义为loss_fake_x；
Dx_loss= loss_real_x+ loss_fake_x；

训练

最小化[G_loss,Dy_loss,F_loss,Dx_loss]变量，实现网络优化训练。

代码实现

这里使用的损失函数和上面不是太一样，具体可以看这个工程：https://github.com/hardikbansal/CycleGAN 和这个博客：https://hardikbansal.github.io/CycleGANBlog/ 通过修改to_train和to_test参数控制训练和测试即可。

#coding=utf-8
import tensorflow as tf
import numpy as np
from scipy.misc import imsave #将数组保存到图像中
import matplotlib.pyplot as plt
import os #文件夹操作
import time
import random

#函数功能:实现leakyrelu
def lrelu(x, leak=0.2, name = "lrelu"):
    with tf.variable_scope(name):
        return tf.maximum(x, leak*x)

#函数功能:实现BN
def instance_norm(x):
    with tf.variable_scope("instance_norm"):
        epsilon = 1e-5
        mean, var = tf.nn.moments(x, [1, 2], keep_dims=True)
        scale = tf.get_variable('scale', [x.get_shape()[-1]], initializer=tf.truncated_normal_initializer(mean=1.0, stddev=0.02))
        offset = tf.get_variable('offset', [x.get_shape()[-1]], initializer=tf.constant_initializer(0.0))
        out = scale*tf.div(x-mean, tf.sqrt(var + epsilon)) + offset
        return out

#函数功能:实现卷积
def general_conv2d(input, o_d=64, f_h=7, f_w=7, s_h=1, s_w=1, stddev=0.02, padding="VALID", name="conv2d", do_norm=True, do_relu=True, relufactor=0):
    with tf.variable_scope(name):
        conv = tf.contrib.layers.conv2d(input, o_d, [f_h, f_w], [s_h, s_w], padding, activation_fn=None, weights_initializer=tf.truncated_normal_initializer(stddev=stddev),
                                        biases_initializer=tf.constant_initializer(0.0