CycleGAN vs DDIB

原创已于 2023-03-04 14:28:30 修改 · 679 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #人工智能

于 2023-02-26 00:47:21 首次发布

DDIB在图像翻译任务中比GAN更能保留原始内容，如动物姿态、肤色和情绪。GAN通过对抗训练生成逼真的图像，可能导致细节损失，而DDPM作为可逆模型，能完整保留输入图像的特征。因此，DDPM适合要求细节保留的任务，GAN则适用于生成真实感图像。

DDIB

论文中说DDIB相比GAN能更多的保留原始内容，但视觉效果上看起来似乎相反:

DDIBs are able to create faithful target images that maintain much of the original content such as animal poses, complexions and emotions, while accounting for differences in animal species.

对论文中ImageNet数据集的复现：
在这里插入图片描述

把DDIB模型应用到horse2zebra数据集：

Direction A2B:
在这里插入图片描述
Direction B2A:

在这里插入图片描述

总结

GAN 和 DDPM 都可以用于图像翻译任务，但是它们的工作原理有所不同，因此对图像原始内容的保留程度存在差异。

GAN 是基于对抗训练的生成模型，它的目标是通过训练生成器和判别器来使生成器生成的样本尽可能接近真实数据分布。在图像翻译任务中，生成器被训练为将输入图像转换为目标域中的图像，而判别器则被训练为将生成器生成的图像与真实目标域中的图像区分开来。由于判别器的存在，生成器被迫产生具有真实感的图像，这意味着它必须捕捉到图像的整体结构和细节特征，而不是简单地复制输入图像的像素值。这通常会导致一些输入图像的细节特征被忽略或损失，因为它们可能对于区分真实和生成的图像没有那么重要。

DDPM 是基于可逆的概率模型的生成模型，它的目标是学习输入数据分布的密度函数。在图像翻译任务中，DDPM 被训练为将输入图像转换为目标域中的图像，而且由于它的可逆性质，它可以保留输入图像的全部细节特征和结构。因此，在 DDPM 中进行图像翻译时，输入图像中的所有特征都被完整地保留，而不会丢失任何信息。

因此，GAN 和 DDPM 在图像翻译任务中对图像原始内容的保留程度存在差异，这是由它们的工作原理决定的。当需要完整地保留输入图像的全部细节特征和结构时，可以使用 DDPM，而当需要生成具有真实感的图像时，可以使用 GAN。