
多模态入门论文系列
文章平均质量分 96
CuddleSabe
这个作者很懒,什么都没留下…
展开
-
多模态论文导读--VQA视觉问答经典论文:(自底向上和自顶向下注意力相结合)Bottom-Up and Top-Down Attention
自顶向下视觉注意力机制被广泛应用于图像字幕生成和视觉问答任务中,使得模型可以通过微调甚至多步推理来达到深层图像理解的目的。在本篇文章中,我们提出了自底向下和自顶向下注意力相结合的机制,从而计算物体级别的注意力和显著图像区域。通过使用我们的方法,自底向上机制(基于Faster R-CNN)提出图像区域,并使用特征向量对每个区域进行表示;同时自顶向下机制用来决定特征权重。翻译 2022-12-17 17:04:44 · 727 阅读 · 1 评论 -
多模态论文导读--VQA视觉问答经典论文:(注意力机制)Where To Look: Focus Regions for Visual Question Answering
我们提出了一种通过选择与文本相关的图像区域来学习视觉问答的模型。我们的方法通过将文本的query与图像不同区域的视觉特征映射到同一个空间并通过内积来计算它们的相关性。我们的方法在视觉问答中类似"what color"这种需要定位到确切位置和"waht room"这种进行相关区域识别的问题上的表现提高很多。我们的模型在最近发布的VQA数据集(人类标注)上进行测试。视觉问答(VQA)任务是给定问题和图片来问答相关问题。VQA在语言表征、推理、识别、常识和阅读及查数这样的具体方向上还有很多挑战。翻译 2022-12-16 00:46:52 · 473 阅读 · 0 评论