
多模态论文导读系列
文章平均质量分 96
论文导读
CuddleSabe
这个作者很懒,什么都没留下…
展开
-
多模态论文导读--VQA视觉问答经典论文:(全卷积结构)Learning to Answer Questions From Image Using ConvolutionalNeuralNetwork
在这篇文章中,我们提出了将卷积神经网络(CNN)应用于图像问答(QA)。我们提出的端到端的模型结构不仅使用CNN来学习图像和问题表示,还学习了两个模态之间的交互关系来预测答案。我们的模型由3个CNN组成:一个图像CNN用来编码图像内容;一个句子CNN来处理单词组成的问题;另有一个多模态卷积层去学习两个模态间的联合表示。我们在DAQUAR和COCO-QA数据集上进行测试,并获得了SOTA的表现。最近,在图像与语言之间的多模态学习研究工作越来越受到关注,例如图像与句子的双向检索、图像字幕生成等。翻译 2022-12-14 22:47:02 · 865 阅读 · 0 评论 -
多模态论文导读--VQA视觉问答前沿论文:(零样本学习)CLIP Models are Few-shot Learners
CLIP在很多视觉任务上展现了非凡的零样本学习能力。在一开始,CLIP仅被当成一个强力的视觉编码器。然而,在经过大量的“图片-字幕”的有监督数据集上预训练之后,CLIP已经获得了在多模态任务上的少样本学习能力。在本篇文章中,我们展现了CLIP强大的少样本学习能力。我们首先在标准的视觉问答任务上验证了CLIP的零样本学习能力然后展现了CLIP在视觉继承(visual entailment)任务上的跨模态零样本迁移能力。然后我们提出了一种微调策略来提升其在视觉问答任务的少样本学习能力。翻译 2022-12-13 22:20:15 · 2430 阅读 · 1 评论 -
多模态论文导读--VQA视觉问答经典论文:(快速实现)Simple Baseline for Visual Question Answering
我们基于词袋特征(bag-of-words)建立了一种非常简单的VQA的baseline,即将问题的单词特征与图片的CNN特征进行拼接来预测答案。其在具有挑战性的VQA数据集上与最近的基于循环神经网络的方法都性能具有可比较性。为了进一步探讨这种模型的优缺点,我们对外提供了一个可交互的web的demo并进行代码开源。将自然语言处理与计算机视觉领域结合,进行高级场景理解是最近的主要去向,如字幕生成等。这些工作的诞生主要是受到深度学习在视觉识别领域的快速发展与最近大型图像与语言数据集的诞生。翻译 2022-12-09 15:23:41 · 2157 阅读 · 1 评论