Multimodal——Paper简读笔记：Multimodal Image-to-Image Translation via a Single Generative Adversarial Net

最新推荐文章于 2024-05-17 15:52:14 发布

hust_zhengT

最新推荐文章于 2024-05-17 15:52:14 发布

阅读量588

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.youkuaiyun.com/hust_zhengT/article/details/107954946

版权

Multimodal Image-to-Image Translation via a Single Generative Adversarial Network

Shihua Huang, Cheng He, Ran Cheng

文章简介

三位作者均来自南方科技大学计算机系，这篇文章从哪里来的？我真不记得了，也就几天前的事吧，因为订阅了很多谷歌学者以及公众号，每天推送很多文章，实在想不起来在什么地方看到的这篇。谷歌了一下，目前也只是在arXiv上传了，估计是投了什么会议，还没有出结果吧。而且，我突然间发现，这篇文章居然就是旁边程然老师（南方科技大学计算机系教授）实验室的文章，哈哈哈，太巧了。

应用场景：Image-to-Image(I2I)

这个应用场景我是第一次接触，整个任务的目标是用某一类图片生成另一类或者另外几类图片，源域和目标域是不同的。比如根据一匹普通的马的图片，生成斑马的图片，或者输入一只狗的图片，生成猫、老虎等其他种类的图片，也可以是用来实现图片去模糊处理。
在这里插入图片描述

算法介绍

看完整篇文章，不难发现文章本身的创新点不足，用的结构也是别人提出过的，最大的创新点在于对别人的网络结构的精简，可能这也是文章目前还没有被会议接收的原因。
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020081212554035.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1c3RfemhlbmdU,size_16,color_FFFFFF,t_70#pic_center

网络主要分为两个部分，第一部分是图片的隐藏层特征提取，分别用两个Encoder提取出图片的content和style,content包含的是图片本身的一些信息，包括纹理、边缘、物体特征等信息，style包含的就是图片中目标的类型，和lable的性质相似。

在提取完源图片的domain-invariant特征之后，就要进入生成部分。生成是在之前提取的content的基础之上进行的，相当于content是原图片和目标图片的相同部分，这是可以直接保留作为生成部分的seed，然后计入目标图片的lable以及隐藏变量，从而生成其他类型的图片。生成部分采用的是对抗生成模型。
在这里插入图片描述

整个网络结构和之前的人做的工作最大的区别在于，作者只用了一个generator和discriminator，即生成不同域的图片也是公用同一个GAN网络，这样网络泛化性更好，网络结构也更简单。

实验结果

在这里插入图片描述