Image-to-Image Translation with Conditional Adversarial Networks 论文笔记

最新推荐文章于 2023-01-26 23:32:43 发布

Magic__Conch

最新推荐文章于 2023-01-26 23:32:43 发布

阅读量1.1k

点赞数 1

分类专栏：图像填补计算机视觉文章标签：计算机视觉深度学习人工智能图形渲染图像处理

本文链接：https://blog.youkuaiyun.com/weixin_43399489/article/details/125915069

版权

会议与时间 Computer Vision and Pattern Recognition, CCF-A, Nov 2016

在这里插入图片描述

简介很多视觉（语义分割、卫星图转化为地图）和图形学（图像生成、图像涂色）的任务都可以归结为Image-to-Image Translation任务，本篇就提出了一种解决这种问题的通用方法cGANS。

主要贡献/创新点

证明条件GANs在很多图像到图像翻译任务上可以取得好结果。
提出一个能产生合理结果的框架，并分析其中构成部分的重要性（component）。

模型搭建

概述

cGANs不同于普通的GANs，除了随机噪声z外，还在Generator和Discriminator中加入了原图x来进行计算。即GAN是学习从噪声z到输出y的映射，conditional GAN是从图像x和噪声z到输出y的映射。
$G: \{x, z\} → y$

本文的模型由两部分组成：

Generator 本文的生成器使用U-Net结构，而非简单的Encoder-Decoder结构。
Discriminator 判别器使用PatchGAN，即把图像分割成 $70 \times 70$ 的大小，然后输出一个矩阵而不是单个值来作为判别器的结果（区别于原始GAN的判别器）。

模型主要结构

生成器 Generator

参考U-Net结构，由Encoder-Decoder和Skip Connection组成。

Let Ck denote a Convolution-BatchNorm-ReLU layer with k filters. CDk denotes a Convolution-BatchNormDropout-ReLU layer with a dropout rate of 50%. All convolutions are 4 × 4 spatial filters applied with stride 2. Convolutions in the encoder, and in the discriminator, downsample by a factor of 2, whereas in the decoder they upsample by a factor of 2.