GAN 图像生成与检测技术综述
1. GAN 文本到图像合成方法
近年来,基于生成对抗网络(GAN)的模型取得了显著进展,能够根据文本描述生成或转换图像。这些方法为深度学习模型训练提供了大量数据,但也带来了虚假图像传播的风险。以下是几种重要的文本到图像合成方法:
- 监督反馈机制 :通过建立文本与图像区域的关联,创建高效的训练机制,可在不干扰图像其他内容的情况下改变特定视觉特征。该方法能根据文本描述生成和操作人工合成图像,主要用于改变图像的类别、颜色和纹理。
- DM - GAN(动态内存生成对抗网络) :旨在克服初始文本到图像合成方法的缺点,这些方法过于依赖初始基础图像的质量。DM - GAN 使用基于动态内存的 GAN 方法,通过动态内存功能改善图像的模糊内容。它有两个门:内存写入门和响应门。内存写入门选择与基础图像内容相关的文本信息,提高从文本描述生成的图像质量;响应门结合动态内存信息和图像属性。该方法在 Caltech - UCSD 200 和 Microsoft Common Objects in Context 数据集上进行了测试。
- ObJGAN(对象驱动的文本到图像合成) :通过有效捕获对象级文本信息来生成逼真图像。该模型由对象驱动的注意力图像生成器、基于对象的判别器和对象驱动的注意力方法组成。文本描述和预先创建的语义布局作为输入,通过迭代过程将粗糙图像细化为高质量图像。在每次迭代中,生成器根据与区域边界框相关的单词改善图像区域。注意力层为查询区域的每个单词形成类别标签,判别器检查所有边界框以验证创建的对象是否符合预先生成的图像
超级会员免费看
订阅专栏 解锁全文
897

被折叠的 条评论
为什么被折叠?



