视频问答中基于定向模态关联的问题难度估计
1. 引言
在大多数问答(QA)任务中,问题的难度水平各不相同。有些问题易于回答,通过简单推理即可得出答案;而有些问题则需要复杂的推理过程。因此,识别问题的难度水平通常是回答问题的第一步。
以往的研究针对许多QA任务提出了多种确定问题难度的方法,但这些方法大多仅基于文本信息进行难度估计。然而,一些QA任务本质上是多模态的,例如在视觉QA中,会提供图像作为参考材料,而问题和答案以文本形式呈现;在视频QA中,会为文本问题提供一系列图像作为参考。所以,处理这类多模态QA任务中的多模态信息至关重要。本文聚焦于视频QA中的问题难度预测。
以往视频QA的研究将每个模态独立表示为向量,然后将这些模态向量组合成单个向量来表示模态之间的关联。但这些方法对模态之间关联的表示不够强烈,为了更准确地估计问题难度,每个模态不仅要体现自身特性,还应明确表达与其他模态的关联。
本文提出了一种新颖的问题难度估计器,它同时考虑文本和视频信息。该估计器有视频编码器和文本编码器分别对视频和文本信息进行编码,还通过定向模态关联变压器(DiMAT)来表示一个模态对另一个模态的定向影响,最后将模态和定向关联信息拼接起来估计问题难度。
2. 相关工作
- 问题难度估计 :之前有很多研究针对不同的QA任务开发了难度估计器。例如,Huang等人研究阅读理解中的问题难度预测,Liu等人估计社区QA服务的问题难度,Ha等人估计医学考试中的问题难度,Qiu等人考虑了一种特殊类型,预测搜索相关文档的难度和候选答案之间的混淆程度,并将这些难度的加权和作为最终难度。
超级会员免费看
订阅专栏 解锁全文
796

被折叠的 条评论
为什么被折叠?



