论文阅读1《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networ》

最新推荐文章于 2025-02-04 12:43:03 发布

原创最新推荐文章于 2025-02-04 12:43:03 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

ML 同时被 3 个专栏收录

3 篇文章

订阅专栏

生成对抗

2 篇文章

订阅专栏

图像分类

2 篇文章

订阅专栏

AttnGAN是一种利用注意力机制的生成对抗网络，能根据文本描述生成256x256的图像，通过关注描述中的相关词汇，细化图像各区域。此模型在CUB_200_2011数据集上验证，采用分步生成策略，并引入深层注意多模态相似性模型评估图像与文本的一致性。

paper链接https://arxiv.org/abs/1711.10485，
code链接https://github.com/taoxugit/AttnGAN，
作者的homepage https://sites.google.com/view/taoxu

本文给出的是CVPR 2018的文章《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》。它是StackGAN++的后续工作。

前作StackGAN的工作：http://blog.youkuaiyun.com/zlrai5895/article/details/81292167

二、基本思想

1、文章要做的事情（Text to Image Synthesis）：
输入：text 　　　　　输出：image

2、通过引入attentional generative network，AttnGAN可以通过关注自然语言描述中的相关单词来合成图像不同子区域的细粒度细节。此外，提出了一种deep attentional multimodal similarity model来计算细粒度图像-文本匹配损失，用于生成器的训练。

它首次表明 the layered attentional GAN 能够自动选择单词级别的condition来生成图像的不同部分。

三、数据集

本次实验使用的数据集是加利福尼亚理工学院鸟类数据库-2011（CUB_200_2011）。
在这里插入图片描述
文章的主要思想是将生成256x256图像的文图转换成先生成64x64，然后再生成128x128，最后再生成256x256的问题（与stackGAN类似，分多步），从低分辨率的图像生成高分别率图像的过程中，分别利用低分辨率的图片信息和word-context产生下一状态的图片，为了在让最后生成的256x256大小的图像与文本的语义一致，作者应用了文本图像检索的方法将生成的图像与原始的文本之间度量他们的相似性（分别从word层面和sentence层面）。

四、分析

1.判别器

思考一下究竟为什么我们需要x，但是x(0)并没有出现在h(1)或者x(1)中？

原因就是训练。在学习阶段判别器D训练采用的是缩小尺寸的原始标注图片。这样将会使得生成器G更好的从h的输入生成x。由BP的规则，这将是的F函数更好的生成隐藏的上下文，这样就保证了每一个阶段的生成都能产生一些有意义的结果。（说白了就是我们判别器判别的时候会有原始的模糊到清晰像素图去监督整个训练的过程）。

2.深层注意多模态相似性模型（DAMSM）

虽然有多个判别器去让这个系统更加优化，但是我们还是不能有个客观的概念：是否标注中的每一个词都被正确的表示在生成的图片中？

为了高效的解决这个问题，作者预先训练了一个被他们称为“专家”的打分网络-DAMSM。这个模型的输入是图片和图片对应的标注词向量。输出就是这两个之间的相似性。

具体细节如下：
采用标准的卷积神经网络，图片被转换为了一系列特征图，每一个特征图表示一些概念或者图上的子区间。
特征图的维度也就和词向量的维度一样，这样方便于计算相似度。
根据标题中的每个标记，将注意力放在特征图上，以计算它们的加权平均值。这个注意力向量实际上代表了图像对标记的抽象。
最后，DAMSM被训练来最小化上述注意向量(单词的可视化描述)和单词嵌入(单词的文本含义)之间的区别。基本上是想让图像的绿色部分尽可能的“绿色”
一旦DAMSM在数据集上得到了足够的训练，它就可以与步进的鉴别器一起使用，为AttnGAN提供一个丰富的目标来优化。