来源 | 机器之心
2025 年了,GAN 能否击败扩散模型?答案是 Yes!
本周五,AI 社区开始讨论一种全新极简主义 GAN(生成对抗网络)。
现代版 GAN 基准论文成为了周五 HuggingFace 热度最高的研究。该论文也入选了 NeurIPS 2024。
它并不像以往那样走 tricks 路径 —— 通过一场「现代化」改造,GAN 现在可以进行更长时间的训练(与扩散模型的训练步骤数相当),一旦 GAN 训练时间足够长,并且架构足够强大,它们就可以胜过扩散模型,并成为更好、更快、更小的模型。
来自布朗大学、康奈尔大学的研究者们表示,通过引入一个新的损失函数,我们就可以解决以往 GAN 模式崩溃(collapse)和不稳定性的问题。
为了证明可行性,他们测试了 GAN 里流行的 StyleGAN2,通过新的理论进行最简升级(修改后改名为「R3GAN」)。结果虽然模型变得更简单了,但 R3GAN 在图像生成和数据增强任务上性能还是超过了所有 GAN 模型和扩散模型。
新的方法给未来的研究奠定了一个更为整洁、可扩展的基础。
-
论文链接:https://arxiv.org/abs/2501.05441
-
GitHub 链接:https://github.com/brownvc/R3GAN
-
HuggingFace:https://huggingface.co/spaces/multimodalart/R3GAN
有一种广泛流传的说法认为 GAN 很难训练,并且文献中的 GAN 架构充斥着大量的经验性 tricks。但是作者团队提供了反驳这一说法的证据,并以更有原则的方式建立了一个现代版 GAN 基线。
在该研究中,作者首先通过推导出一个行为良好的正则化相对 GAN 损失函数,解决了模式 dropping 和不收敛问题,而这些问题在以前经常是通过大量 ad-hoc tricks 来应对的。他们从数学层面分析了这一损失函数,并证明它具有局部收敛保证,这与大多数现有的相对损失函数不同。
其次,这个损失函数能够抛弃所有的 ad-hoc tricks,并用现代版架构替代常见的 GAN 中所使用的过时的骨干网络。以 StyleGAN2 为例,他们