前阵子研读了一篇文章:《Hierarchical Co-Attention for Visual Question Answering》作为VQA学习的第一篇入门文献,并在此之前浏览了余俊老师发表的《视觉问答技术研究》这篇综述视觉问答技术研究,对视觉问答的注意力模型有了一些浅显的了解。
论文链接:Hierarchical Co-Attention for Visual Question Answering
代码链接:https://github.com/jiasenlu/HieCoAttenVQA
一、文章引入
视觉问答(VQA)已经成为学术界和行业中一个突出的多学科研究问题。为了正确回答有关图像的视觉问题,机器需要同时理解图像和问题。最近,针对VQA探索了基于视觉注意的模型,其中,注意机制通常会生成突出显示与回答问题相关的图像区域的空间图。
到目前为止,文献中有关VQA的所有注意力模型都集中在识别“在哪里看”或视觉注意力的问题上。在本文中,作者认为识别“要听哪些单词”或提问注意力的问题同样重要。除了对视觉注意进行推理之外,本文还解决了问题关注的问题,特别是,文中提出了一种新颖的多模式注意具有以下两个独特功能的VQA模型:
co-attention:本文提出了一种新颖的机制来共同引起视觉注意和问题注意,将其称为共同注意。 与以前的只关注视觉注意力的作品不同,文中的模型在图像和问题之间具有自然的对称性,即图像表示用于指导问题注意,而问题表示用于指导图像注意。
Question Hierarchy:本文构建了一个层次结构,该结构在三个级别上共同参与图像和问题:(a)单词级别,(b)短语级别和(c)问题级别。 在单词级别,通过嵌入矩阵将单词嵌入到向量空间中; 在短语级别,使用一维卷积神经网络(CNN)来捕获单字组,二元组和三字组中包含的信息。 具体来说,我们将单词表示与支持不同的时间过滤器进行卷积&#x
Hierarchical Co-Attention for Visual Question Answering心得体会
最新推荐文章于 2024-04-18 21:02:36 发布