Multimodal——Paper简读笔记:Multimodal Image-to-Image Translation via a Single Generative Adversarial Net

Multimodal Image-to-Image Translation via a Single Generative Adversarial Network

Shihua Huang, Cheng He, Ran Cheng

文章简介

三位作者均来自南方科技大学计算机系,这篇文章从哪里来的?我真不记得了,也就几天前的事吧,因为订阅了很多谷歌学者以及公众号,每天推送很多文章,实在想不起来在什么地方看到的这篇。谷歌了一下,目前也只是在arXiv上传了,估计是投了什么会议,还没有出结果吧。而且,我突然间发现,这篇文章居然就是旁边程然老师(南方科技大学计算机系教授)实验室的文章,哈哈哈,太巧了。

应用场景:Image-to-Image(I2I)

这个应用场景我是第一次接触,整个任务的目标是用某一类图片生成另一类或者另外几类图片,源域和目标域是不同的。比如根据一匹普通的马的图片,生成斑马的图片,或者输入一只狗的图片,生成猫、老虎等其他种类的图片,也可以是用来实现图片去模糊处理。
在这里插入图片描述

算法介绍

看完整篇文章,不难发现文章本身的创新点不足,用的结构也是别人提出过的,最大的创新点在于对别人的网络结构的精简,可能这也是文章目前还没有被会议接收的原因。
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020081212554035.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1c3RfemhlbmdU,size_16,color_FFFFFF,t_70#pic_center

网络主要分为两个部分,第一部分是图片的隐藏层特征提取,分别用两个Encoder提取出图片的content和style,content包含的是图片本身的一些信息,包括纹理、边缘、物体特征等信息,style包含的就是图片中目标的类型,和lable的性质相似。

在提取完源图片的domain-invariant特征之后,就要进入生成部分。生成是在之前提取的content的基础之上进行的,相当于content是原图片和目标图片的相同部分,这是可以直接保留作为生成部分的seed,然后计入目标图片的lable以及隐藏变量,从而生成其他类型的图片。生成部分采用的是对抗生成模型。
在这里插入图片描述

整个网络结构和之前的人做的工作最大的区别在于,作者只用了一个generator和discriminator,即生成不同域的图片也是公用同一个GAN网络,这样网络泛化性更好,网络结构也更简单。

实验结果

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值