在这里,我们将探索使用图像的非结构化外部信息源及其相应的字幕来改进视觉问答(VQA)。
首先,我们训练了一种新的对齐模型,将图像和字幕嵌入到相同的空间中,使图像-字幕检索的性能有了很大的提高。
其次,我们证明了使用训练的对齐模型的检索增强多模态变压器在强基线上改进了VQA结果。
在这里,我们将探索使用图像的非结构化外部信息源及其相应的字幕来改进视觉问答(VQA)。
首先,我们训练了一种新的对齐模型,将图像和字幕嵌入到相同的空间中,使图像-字幕检索的性能有了很大的提高。
其次,我们证明了使用训练的对齐模型的检索增强多模态变压器在强基线上改进了VQA结果。