用GAN也可以P图,效果还不输PS | 英伟达出品

英伟达、多伦多大学和MIT的研究人员提出了一种名为EditGAN的模型,该模型能够在不需要大规模语义分割注释的情况下,仅需少量标注就能进行高质量的图像编辑。EditGAN能实现对人体、汽车、鸟类和猫等对象的精细编辑,保持原图质量,且具有良好的泛化能力。与现有方法相比,EditGAN在编辑精度和图像质量方面表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

把人的眼睛变大、把闭着的嘴合上、转动眼珠:

b9ca012bd5d2cb9365882459afc8d93e.png

质量如此逼真、一点糊图的痕迹都没出现——

如果我不说,你知道这其实是GAN自己P的吗?

8cc962975074d329d6e3e3908caaaeb8.png

除了人脸,汽车啊鸟啊猫啊也都可以,比如改改车轮大小、换个车轴样式:

bf1e1dae0e27b6025eb9fa482db2c377.png

6044952d3f0c4739d297ec150f049233.png

把小鸟的喙部变长、头抬高、胸脯变壮:

fc0b62e0d4642c98c5ad2250b74c2f12.png

用动图展示就更炫酷了:

e4318e2f573a0873e8405e7c7d1dc648.gif

大点大点,圆点圆点,头发再多一点……

2485f8dd6be65964d06150352e7be6ad.png

怎么样,这GAN的效果是不是也不输PS

一个高质量P图GAN

以上这些都来自一个叫做EditGAN的模型,可以对图像实现很多细节上的编辑同时还能保持原图质量

研究出自英伟达、多伦多大学以及MIT,相关论文已被NeurIPS 2021接收。

03de22f03634b3ee5e2628d9ca234552.png

在此之前,大多数基于GAN的图像编辑方法往往都需要大规模数据集上的语义分割注释才能训练,并且也只能做一些有限的修改,有的甚至只是在两张图之间简单地进行插值。

EditGAN作为一种全新方法,只需少量语义标记就能训练。

它会把原图像分割成高度精细的语义块(segmentation mask),有多精细呢?

就比如下面这张人脸图,被足足按30种语义进行了分割:

5d5c4989232f7c23f1bd7653a693706f.png

而在一个交互工具中(还未开放地址),只需操作这些语义块就可以对相应部分进行修改。

53592686aa794deb6f244c4b5b6533b9.gif

EditGAN的关键思想在于利用图像和语义分割的联合分布p(x, y) 。

具体来说就是给定要编辑的新图像x,将其嵌入到EditGAN的潜空间,由于语义分割图和RGB图像共享相同的潜码,所以可以得到相应的分割图y。

接着,使用简单的交互式数字绘画或标签工具,可以根据所需的编辑手动修改分割图y。

然后进行共享潜码的优化,以保持新分割图与真实图像的RGB外观一致,如图所示:

09814ae0a8707ea3b4848a75c13c81a3.png

相应的梯度则通过共享生成器反向传播而成。

结果就是潜空间中的编辑向量δw + edit

此外,EditGAN通过学习提炼各种各样的编辑向量,可以直接应用于新的图像。

6ca1254224c203a078c190c158295be7.png

还可以泛化到绘画作品上

真实质量如何?

研究人员在在四个不同类别的图像上对EditGAN进行评估:汽车(空间分辨率384×512)、鸟类(512×512)、猫(256×256)和人脸(1024×1024)。

  • 定性实验结果

将EditGAN此前学习的编辑向量应用于新图像,经过30个优化步骤的细化,EditGAN的编辑操作保持了原图像的质量。

12b9f5cfab9ec41a13f41e719564ed64.png
1b5b2e5d4e16ab2743f04f2136b94d42.png

用它进行高精度细节编辑的效果也很好,比如下面左图对轮轴的旋转,右图对瞳孔大小的修改:

23fa470cb8c6031905915e0f28276290.png

在下面这种高清的图像上效果就更好了:

94dcd41857366d49fffa322c2ad0bb99.png

作者表示,目前其他方法都还不能达到这样的效果。

此外,EditGAN也有很强的泛化能力,比如在下面这种绘画等风格的人像上,做点小表情毫无违和感。

a83880524335f0236da6ae4020251ba3.png

  • 定量实验结果

和基于MaskGAN的smile编辑基准的模型相比,EditGAN则实现了最佳属性精度和ID分数。

bbf4d2543f7a91112681cc8794428c72.png

最后,和所有基于GAN的图像编辑方法一样,EditGAN仅限于应用到由GAN建模的图像上。

作者介绍

一作凌欢,多伦多大学博士生,同时在该校人工智能研究院(Vector Institute)和英伟达做研究。

445363fd0c06b0c9fb511eb958fd96a3.png

共同一作Karsten Kreis,英伟达高级研究科学家,2018年以博士学位毕业德国马普高分子所。

7b076e53fac3bae8d47667fe37c0fa87.png

其余作者包括:英伟达多伦多AI Lab的Li Daiqing,多伦多大学的Seung Wook Kim,以及MIT教授Antonio Torralba。

通讯作者为一作导师,多伦多大学副教授,英伟达AI总监Sanja Fidler。

e22c59dd56ed98ec4caf0bd8e832e423.png

论文地址:
https://arxiv.org/abs/2111.03186

项目主页:
https://nv-tlabs.github.io/editGAN/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值