百度飞桨PaddlePaddle论文复现——StarGANv2论文解读

StarGAN v2提出一种改进的多域图像转换方法,通过domain-specific style code替代域标签,实现图像风格多样性和跨域转换,显著减少所需生成器数量。该方法在AFHQ数据集上表现优异,通过FID和LPIPS指标量化评估其性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

百度顶会论文复现营

百度飞桨Paddle Paddle顶会论文复现营

论文解读

解读视频

PyTorch代码及论文

Github

Motivation

多领域

  • 考虑到每个域中的不同风格样式的图像。设计和学习此类模型会变得很复杂,因为数据集中可能有大量的style(每个图像都有唯一的外观)和domain(一组可以分为视觉上独特类别的图像)。
  • 目前图像转换方法都仅考虑两个域之间的映射。若有K个域,需要训练 K(K-1 )生成器来处理每个域与每个域之间的转换。
  • StarGan缺乏多样性。由于每个域都由预先定义标签来表示,所以没有掌握数据分布的多样性 (mutil-modal) 本质。

Methodology

StarGan v2

  • 使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder
    在这里插入图片描述

  • 映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支,每个分支都提供特定域的样式码,训练时将选取其中对应domain的一个

  • Generator
    将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s
    删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接

  • 映射网络Mapping network
    网络包括k个输出分支,表示有k个域,给定隐变量z和对应的域y,生成样式码𝑆

  • Style encoder:
    网络包括k个输出分支,表示有k个域,给定图像x及其对应的域y,编码器E提取x的样式码𝑆

  • Discriminator:
    网络包括k个输出分支,表示有k个域,每个分支都学习一个二元分类,确定图像x是域y的真实图像还是G生成的伪图像,因此输出维度D被设定为1,作为real/fake的分类

训练目标

  • 对抗目标Adversarial objective
    在这里插入图片描述

  • 风格重构Style reconstruction
    在这里插入图片描述

  • 保留源图特性Preserving source characteristics
    在这里插入图片描述

  • 总体目标

在这里插入图片描述

Results

AFHQ
  • 发布了一个新的动物面孔数据集Animal FacesHQ(AFHQ)
  • 包括512×512分辨率的15,000张高质量图像。数据集包括猫,狗和野生动物的三个域,每个域提供5000张图像。
    在这里插入图片描述
量化评价指标
  • Frechétinception distance (FID)衡量真实图像和生成图像之间的差异性
  • Learned perceptual image patch similarity (LPIPS) 衡量生成图像的多样性
    在这里插入图片描述
人类评价

在这里插入图片描述

生成图像

在这里插入图片描述

代码解读

Github

最后…大家快来参加百度paddle paddle顶级论文复现营吧!手把手教学!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值