【研究生工作周报】(NICE-GAN论文再回顾)

NICE-GAN详解

原创

已于 2022-09-18 08:29:30 修改 · 3.7k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#生成对抗网络 #计算机视觉 #人工智能

于 2022-09-17 23:23:32 首次发布

本文深入探讨了NICE-GAN模型，重点介绍了其创新的架构，包括多尺度判别器、残差注意力机制和自适应混合归一化层。此外，还详细解析了其独特的解耦训练策略和损失函数设计。

NICE-GAN

文章目录

NICE-GAN
前言
一、图像翻译的问题定义
二、NICE-GAN各组件架构
三. 解耦训练机制
四. 判别网络，生成网络架构总览
- - 参考论文及博客

前言

早在假期就对这篇论文做过初步研究，但碍于当时在对抗生成网络这一领域的基础比较薄弱，所以对论文的理解比较肤浅。通过这段时间对CGAN，pix2pix，CycleGAN等经典GAN模型学习之后，在理论和实践层面对GAN有了一个比较系统的认识。本周就NICE-GAN模型进行一个理论上的总结。

一、图像翻译的问题定义

对于两个图像域 $Do main X$ 和 $Do mainY$ ，
监督图像翻译：给定联合分布 $p (X, Y)$ ,学习条件映射 $f_{x \rightarrow y} = p(Y|X)$ 和 $f_{y \rightarrow x} = p(X|Y)$
而无监督图像翻译：给定边缘分布 $p (X)$ ， $p (Y)$ ;学习条件映射 $f_{x \rightarrow y} = p(Y|X)$ 和 $f_{y \rightarrow x} = p(X|Y)$ 。

现在的问题是做无监督的图像翻译时，可以有无数个条件概率 $p (Y ∣ X)$ 和 $p (X ∣ Y)$ 服从相同的边缘分布 $p (X)$ ， $p (Y)$ ，这也诠释了为什么衡量Cycle-GAN性能时会以pix2pix模型作为Top-line。为了解决这个问题，不同模型都有自己的策略：UNIT使用了weight-coupling，Cycle-GAN使用的cycle-consistency，identity-mapping-enforcing。

对于大多数现存的架构来说，翻译过程可以表述为：

编码器 $E_{x}$ 和生成器 $G_{x \rightarrow y}$ 组合实现图像的生成
$f_{x \rightarrow y}(x) = G_{x \rightarrow y}(E_{x}(x))$
再拿判别器 $D_{y}$ 区分真实图像 $y$ 和生成图像 $y^{'}$ 。
( $\rightarrow x$ 同理， $f_{y \rightarrow x}(y) = G_{y \rightarrow x}(E_{y}(y))$ )