StoryVisualization系列(7)Clustering GAN:面向故事可视化的聚类生成对抗网络(2022.10-ACMMM)

目录

前言:  

摘要:        

一、Introduce

二、Related Work

三、Contrastive and Clustering StoryGAN

3.1 Model Overview

3.2 Contrastive Losses for Story Visualization

3.3 Clustering Losses for Story Visualization

3.3.1 Fusion Features

3.3.2 OnlineK-MeansClustering

3.3.3 Offline K-Means Clustering 

3.4 Discriminator

3.5 Generator

四、Experiments

4.1 Datasets

4.2 Implementation

4.3 Evaluation Metrics

4.4 Quantitative Evaluation(定量评估)

4.5 Qualitative Evaluation(定性评估)

4.6 Human Evaluation(人类评估)

4.7 Ablation Study(消融实验) 

4.8 Visualization of Bi-Directional Attention

五、 CONCLUSION


前言:  

        论文地址:https://dl.acm.org/doi/10.1145/3503161.3548034

        论文代码:https://github.com/mrlibw/Clustering-Story-Visualization

        简介:生成器架构不变,对比学习减轻参数量,聚类学习弥补连贯性和语义一致性

摘要:        

        介绍:故事可视化旨在生成一系列图像,在语义上匹配给定的句子序列,每个句子对应一个句子,并且一个故事中的不同输出图像应该彼此一致。

        目的:之前的方法,大都用了繁重的两个GAN的架构(两个判别器),一个针对图片质量,一个针对故事连贯,同时还会加入比如附加的分割语义任务、辅助语义任务等等。我们的目的是提出一个简单的GAN架构,既不依赖于额外的语义信息,也不依赖于辅助任务。

        提出:基于此,我们提出了一个对比学习和基于聚类学习的故事可视化GAN。

        思路:我们的网络利用了语言信息和视觉信息之间的对比损失,使两者之间的相互信息最大化。并在训练过程中进一步扩展聚类学习,以捕获不同模式的语义相似性。因此,我们的方法中的判别器向生成器提供综合反馈,同时考虑图像质量和故事一致性,从而使得基于单一GAN的网络生成高质量的合成结果。

一、Introduce

        目的:我们的目的是提出一个简单的单一GAN架构,既不依赖于额外的语义信息,也不依赖于辅助任务。

        对比学习:所以我们找上了对比学习,对比学习是有名的自监督方法了,它通过对比正pair和负pair来加强不同增强下图像表示的一致性,而且参数量小。

        聚类:但是,单纯通过正负样本对的拉远,缺少了语义信息,也其实破坏了story中对应imge_seq的连贯性,为了重新考虑样本间的相似性,聚类算法可以补救这个问题。聚类算法将相似的实例(即具有相似语义的实例)分组到同一个集群中,并将不同的实例推到不同的集群中。

        问题:

                聚类算法有一个问题:

                        我们知道故事可视化是多模态的,如果直接用聚类的话,会有可能让文本聚类到文本,图片聚类到图片,那就达不到目的了。所以如何让相似文本和相似图片聚类到同一空间就很重要了。

                        为了解决这个问题,我们建议将融合特征添加到聚类算法中,融合特征由图片和文本融合。此外,我们建议将融合特征也输入到鉴别器中,判别器将生成的图片feature和真实图片和输入文本的融合特征作比较。(我们认为,将融合特征输入鉴别器可以帮助训练规范化,并以融合特征为输入稳定聚类学习,那么也达到了只用一个D的目的)

                        另外,由于融合特征采用的是词级别的文本张量,我们在生成器中,也利用词级别的文本张量去提高它捕捉语言和视觉特征之间关系的能力。因此我们将词级别的空间注意力机制(WSA),拓展到了双向词空间注意力机制(BWSA)来综合捕捉图像区域与不同词语之间的正负关系。

        总结:

        为了简洁,想到对比学习,为了语义相关与连贯性,想到聚类,同时为了聚类,提出了融合视觉特征与文本词级别特征的判别器,既如此,又顺带延申了词级别的空间注意力机制BWSA。

                1)针对故事可视化任务,提出了一种既不使用额外的语义信息,也不使用辅助网络,且具有较少可训练参数的简洁单向GAN网络

                2)在训练过程中,我们将对比学习与聚类学习相结合,以捕获不同模式间的语义相似性。我们探索在线和离线学习方法,将聚类算法实现到多模态生成过程中。

                3)我们对结合对比学习和聚类学习的好处进行了全面的分析,以提供CGANs中的一般建模见解。

二、Related Work

        故事可视化:略

        文本生成视频:和故事可视化相关但不一样,因为我们更多样化,变化更大,时间跨度大。

        文本生成图像:略

        GAN中的对比学习与聚类学习:略

三、Contrastive and Clustering StoryGAN

本文的目标是构建一种基于单一gan的故事可视化体系结构,与现有方法相比,该体系结构的参数数量较少,但仍能同时保证图像质量和故事一致性,而不是将两者分开处理。为此,我们提出了一种新的基于对比学习和聚类学习的网络,在这种网络中,对比学习最大化了语言和视觉信息之间的相互信息,以确保文本和图像的良好对齐对应,而聚类学习捕获实例之间的语义相似性。

3.1 Model Overview

生成器部分(上半图):输入story,经过TextEcoder后混入noize,映射到4*4的尺寸后经过一系列上采样层(夹杂着加入词级别新的Attention层)生成图片序列。【这么一看好像和StoryGAN基本一样,区别是加入了词级别的StoryGAN罢了,但是这完全和这个作者的另一篇论文差不多】

判别器部分(下左半图):输入的是混合的特征,进行判别。同时还加入了对比学习和聚类学习的思路【混合特征的思路i和Word_GAN那篇论文差不多,特别的是加入了对比学习和聚类学习】

总结一下,相对于作者同期的那篇Word_GAN,这篇的改进对于生成器几乎没有改动,对于判别器合二为一也是旧作品已有的思路,创新是,加入了额外的对比损失、聚类损失。

3.2 Contrastive Losses for Story Visualization

        我们采用对比学习来最大化对应对之间的相互信息:

                (1) story sentence and story image, (2) single sentence and single image,

                (3)words and image regions, (4) words and story image regions.

        XMC-GAN中采用的正负对例子对比损失NT-Xent如下:    

             其中cos代表余弦相似度,tao是超参数,M代表M-1个负样本。

        本文提出了MMS(masked margin softmax):

                MMS以visual和language一个batch内的嵌入后的点积来代表之间的相似性

                NT-Xent可能会错过从更多的负样本学习的机会,而MMS可以对整个Batch中进行学习

                做如下定义:V表示视觉表示(image_seq, image, image_region), v代表编码之后的视觉特征。S表示语言表示(story, sentence, word),s表示编码之后的文本特征。

                注,image特征和image_region特征由单张图片输入图片编码器得到,而image_seq特征由整个序列的image特征的平均值得到。而text_feature和word_feature和story_feature都由story输进去文本编码器得到。接着,投射到相同的维度R^D。

                例,以下是一对sengtence和image的对比损失:其中N代表的是Batchsize,δ是超参数。通过将所有特征投射到同一空间,并确保它们的相似度成对最大化,我们确保了对应对之间的互信息最大化,从而输出结果既真实又一致。

3.3 Clustering Losses for Story Visualization

         由于对比学习只是单纯的将负样本推离,将正样本拉近,并不会考虑到语言关系。所以他有可能将不同story的实体推到一起,也有可能将相同story的实体给推走。所以我们需要聚类学习在训练阶段,我们探寻online和offline的聚类学习。

3.3.1 Fusion Features

        我们知道,如果分别使用语言特征或者视觉特征,有可能只会令文本的聚类到文本,视觉的聚类到视觉,所以我们需要设计融合特征X∈(h*w) * L作为输入。

 3.3.2 OnlineK-MeansClustering

        在训练过程中,我们采用了标准的K-means聚类算法。聚类算法的目标是划分𝑈融合特征𝑌1,
𝑌2,…,𝑌𝑈到𝑙(<𝑈)集𝑇={𝑇1,𝑇2,…,𝑇𝑙}

 

3.3.3 Offline K-Means Clustering 

        在在线K-means聚类中,质心不是固定的,随着GAN的训练而调整,寻找质心可能需要一定的时间。相反,我们可以预先计算质心,然后在训练期间固定这些质心。首先还是要在预训练编码特征之后进行融合特征,然后训练图像和文本编码器的目标定义如下:

        为了预先训练文本和图像编码器,我们使用来自给定数据集的成对故事图像和句子。因此,在完成文本编码器和图像编码器的预训练后,我们可以找到质心,然后在生成模型的训练过程中对质心进行固定,以加快训练过程。 

3.4 Discriminator

        为了鼓励我们的网络产生更好的融合特征,进而导致更好的视觉和语言特征表示,我们建议将融合特征输入鉴别器。在判别器中输入融合特征有助于训练的正则化和聚类训练的稳定性。同时,由于我们的鉴别器只控制融合特征的质量,所以我们不需要将鉴别器网络分离为评估图像相等性和文本-图像对齐的两条路径,这满足了我们构建简洁网络的目标。

 3.5 Generator

四、Experiments

有StoryGAN、CP-CSV、Duco、VLC来做比较

4.1 Datasets

 Pororo-SV、 CLEVR-SV

4.2 Implementation

Pororo-SV是64*64大小图片,AbstractScenes是256*256.

文本编码器是预训练的bi-directional LSTM,图片编码器是imagnet上预训练的VGG-16

实验于一个RTX 6000 GPU

4.3 Evaluation Metrics

FID:衡量生成分布与目标分布间的散度

FSD:适配于Story的FID

Cosine:余弦相似度

4.4 Quantitative Evaluation(定量评估)

4.5 Qualitative Evaluation(定性评估)

4.6 Human Evaluation(人类评估)

4.7 Ablation Study(消融实验) 

不同对比损失对模型的影响:

 各方法对模型的影响:

4.8 Visualization of Bi-Directional Attention

注意力矩阵的热力图,可视化注意力机制抓取的信息

五、 CONCLUSION

研究了故事可视化任务,提出了一种基于构造学习和聚类学习的简洁单gan网络。对比学习最大化了语言和视觉信息之间的相互信息,聚类学习捕获了不同形态之间的语义相似性。此外,我们进一步扩展了词层面的空间关注,全面捕捉词与图像区域之间的正、负关系。实验结果表明,该方法具有较好的性能,即使它具有少量的参数

             

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值