Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering心得体会

本文探讨了一种学习方法,用于在事实型视觉问答中进行知识库检索。通过结合图像和问题的表示,预测相关事实并从知识库中检索,以解决回答问题的挑战。文章介绍了模型架构,包括图像和问题的嵌入,以及如何通过预测事实关系和答案源来获取答案。实验结果显示,这种方法提高了基于知识的视觉问答性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近两周研读了一篇文章,题目是《Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering》,文章链接如下:Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering

一、文章引入
在回答给定上下文(例如图像)的问题时,我们将观察到的内容与常识无缝结合在一起。 对于自然参与我们日常工作的自主代理和虚拟助手,在最常根据上下文和常识回答问题的地方,利用观察到的内容和常识的算法非常有用。我们注意到,许多前述方法集中在问题回答任务的视觉方面,即,通过结合问题和图像的表示来预测答案。这与描述的类人方法明显不同,后者将观察与常识相结合。为此,相关研究设计了一种从问题中提取关键字并从知识库中检索包含这些关键字的事实的方法。但是,同义词和同形异义词构成了难以克服的挑战。
为了解决这个问题,我们开发了一种基于学习的检索方法。更具体地说,我们的方法学习事实和问题图像对到嵌入空间的参数映射。为了回答问题,我们使用与所提供的问题图像对最一致的事实。
知识库中的事实是根据视觉概念(例如,对象,场景和从输入图像中提取的动作)进行过滤的。然后将预测的查询应用于过滤后的数据库,从而获得一组检索到的事实。然后,在检索到的事实和问题之间计算匹配分数,以确定最相关的事实。最正确的事实构成了问题答案的基础。
二、文章精读
在这里插入图片描述
图1:拟议方法概述。 给定图像和关于图像的问题,我们通过在图像上使用CNN,在问题上使用LSTM以及将两种方式组合在一起的多层感知器(MLP)来获得图像+问题嵌入。 为了从知识库(KB)中过滤相关事实,我们使用另一个LSTM从问题中预测事实关系类型。 使用GloVe嵌入对检索到的结构化事实进行编码。 通过嵌入向量之间的点积对检索到的事实进行排序,并返回排名靠前的事实以回答问题。
图一概述了本文开发的方法。当前的任务是通过使用外部知识库KB来预测给定图像x的问题Q的答案y,该知识库由一组事实fi组成, 知识库中的每个事实fi都表示为形式为fi =(ai,ri,bi)的资源描述框架(RDF)三元组,其中ai是图像中的视觉概念,bi是与主题相关的属性或短语 ri是两个实体之间的关系。 数据集| R | = 13包含关系r∈R = {Category,Comparative,HasA,IsA,HasProperty,CapableOf,Desi

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值