背景
本篇论文研究的内容是视觉对话(Visual Dialogue,VD)系统。在这里我们主要学习它的多模态特征的交互和融合方式。
摘要
视觉对话系统是一个具有长上下文(问答历史记录)的多模态任务,同时每次作答也需要抽取、组合来自多模态数据的特征而后进行推理来得到答案。在视觉对话系统中,传统的基于最大似然估计的方法只从积极的回答中学习,而忽略了消极的消极,因此倾向于产生安全的或通用的回答(即回答不会出错,但也没有什么有价值信息)。为了解决这个问题,我们提出了一种全新的训练模式并结合加权似然估计的新方法。在此基础上,设计了自适应多模态推理模块,可自动适应各种对话场景并选择相应的信息。
引言
多模态推理涉及从多模态输入中提取和组合有用的信息,它被广泛应用于视觉和语言的交叉领域,对于VD任务,推理可以应用于图像(I)、问题(Q)和历史对话内容(H)。在前人的工作中,多模态信息的推理路径曾被手工设计为"Q−>H−>IQ->H->IQ−>H−>I",之后再被细化成"Q−>I−>H−>QQ->I->H->QQ−>I−>H−>Q“甚至是”Q−>I−>HQ->I->HQ−>I−>H",与以往的工作不同,本文提出了一种不预先定义推理顺序的自适应推理方案。
方法
通用的自适应的对话系统 Generative VD System
问题的定义
初始化的输入是一张图像和相应的caption。在第ttt个回合中,模型能够获取到的输入包括图像I,历史"ground-truth"对话Ht−1H_{t-1}H

论文提出了一种新的多模态视觉对话系统,通过加权似然估计改进了训练模式,解决了传统方法产生安全但无价值回答的问题。自适应多模态推理模块能动态适应不同的对话场景,不再依赖预定义的推理顺序。
最低0.47元/天 解锁文章
1537

被折叠的 条评论
为什么被折叠?



