Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering
一句话总结
以维持语义正确性为前提,生成对抗样本进行VQA图像及文本的数据增强
导论
Motivation:
近期工作表明VQA算法的性能一定程度上依赖于训练数据的数量,现存VQA算法能从更多的训练数据中受益,这意味着无需人工标注的数据增强是提升算法性能的一个好方向。
现存的数据增强方法主要是通过Data warping和Oversampling两种方式,其中Data warping包括位置、颜色的变换,随机擦除,对抗训练,风格转换。Oversampling生成合成实例,并将其加入到训练集中。
然而在VQA领域中,由于很难维持三元组<image, question, answer>的语义正确性,数据增强方法很少被研究。比如,一个关于方向的问答,如果图像做了旋转,那么答案很有可能会反过来。之前的相关工作Visual Question Generation(VOG)基于给定答案和图像内容生成合理的问题,但是这种方法会存在一些语法错误,或生成古怪的句子,此外它们生成的数据往往来自原数据的同一分布,我们知道训练集与测试集一般不共享同一个分布,所以这样并不能帮助模型减小过拟合。
Contribution:
本文提出的方法能够生成图像和文本的对抗样本,同时维持语义正确性。
此外还提出了对抗训练机制,使得VQA模型能够利用这些对抗样本。
在原验证集上有着65.16%的准确率,相较于原模型提升了1.84%。
作者提到本工作是VQA领域第一个同时对图像和文本数据进行增强的。
方法
考虑到图像或者问题的变化可能会对答案产生影响,因此这里尽可能的不会直接对图像、问题等原始输入做变换,比如旋转、改变词序。
图像对抗样本生成:
主要目标是让模型错误分类的基础上,向输入数据添加尽可能少的扰动。作者使用了基于梯度的攻击方法IFGSM(Iterative Fast Gradient Sign Method)以生成图像对抗样本。
后续实验结果表明,普通的Up-Down模型在这些图像对抗样本上的准确率只有17%-30%,表明对抗样本与普通样本来自于不同分布。
对等语义问题生成:
由于文本数据是离散的,所以不能直接应用上述方法,作者决定采用seq2seq解释模型(sequence-to-sequence paraphrasing model)生成对等语义对抗问题。
该模型基于编码器解码器NMT框架,RNN编码器将源句子编码为一个向量,条件RNN解码器逐字生成目标语句。模型的损失函数用的softmax。
详情见论文。
最后贴一张实验结果,在VQAv2上实验,以BUTD(即Up-Down)作为基础模型,结果表明文中方法优于原训练baseline,在验证、test-dev和test-std集上分别获得1.82%、2.55%、2.6%的提升。
个人总结:
对于文中提到的IFGSM对抗算法等并不了解,不打算深入阅读,掌握文章的idea即可。
参考
【文献阅读】seada-VQA对数据进行对抗增强并保留语义正确性(R. Tang等人,ArXiv,2020)_QQ704630835的博客-优快云博客