Predicting Human Scanpaths in Visual Question Answering

ABSTRACT


        注意力是人类和计算机视觉系统中的重要机制。尽管当前最先进的模型关注通过自由观察行为估计静态概率显著性图,现实场景中充满了类型和复杂性各异的任务,视觉探索是一个影响任务表现的时间过程。为弥合这一差距,我们首次研究和预测人类在执行通用任务时的眼动时间序列(即注视路径),并探讨注视路径如何影响任务表现。

        我们提出了一种新的深度强化学习方法,用于预测视觉问答任务中导致不同表现的注视路径。在任务引导图的条件下,所提出的模型学习特定问题的注意力模式以生成注视路径。该方法通过自批评序列训练解决了注视路径预测中的暴露偏差问题,并设计了一种一致性-分散性损失,以生成正确和错误答案之间可区分的注视路径。

        该模型不仅能够准确预测视觉问答中人类行为的时空模式(如注视位置、持续时间和顺序),还能够推广到自由观察和视觉搜索任务,在所有任务中实现了接近人类水平的表现,并显著超越了现有最先进的模型。

 Introduction

视觉注意力在日常任务中的关键作用
视觉注意力在完成日常任务中扮演着重要角色。现有研究主要关注刺激驱动的自由观察行为,而另一种形式的注意力,即任务驱动注意力,通过选择与任务相关的信息来做出决策或完成任务。与突出视觉输入相对重要性的静态显著性图不同,眼动的时间序列提供了更全面和自然的注意力表示。理解和预测通用任务中的视觉注视路径,不仅可以揭示决策过程,还可用于多种计算机视觉应用。

图 1.人类的视觉扫描路径可以揭示他们的决策策略并解释他们的表现。那些关注相关视觉提示的人可以实现高水平的任务执行。此示例比较了成功或未能回答问题的人的扫描路径,其中点表示注视。数字和半径分别表示注视顺序和持续时间。蓝色和红色圆点分别表示扫描路径的开始和结束。 

任务驱动的视觉注视路径反映了完成任务的视觉探索过程,并且与任务表现强烈相关。例如(图1),回答“花瓶的颜色是否与围巾相同?”这一问题时,人们需要主动探索场景并寻找花瓶和围巾。正确时机关注正确位置通常会产生正确答案(图1,中间),而未能做到则可能导致错误答案(图1,右侧)。

为理解和建模通用任务驱动注意力,我们提出了一种新颖的深度强化学习方法,利用任务引导作为重要模态来预测人类在通用任务中的视觉探索行为。我们首先引入任务引导图来指定与任务相关的图像区域,该图被设计并验证可以跨任务泛化。为了解决训练时和测试时上下文之间的暴露偏差,我们引入了一种强化学习方法,直接优化不可微分的测试时评估指标【14】。此外,我们设计了一种新的损失函数,考虑正确和错误注视路径之间的一致性和分散性,以区分导致不同表现的眼动模式。

研究特点
本研究与以往注视路径预测研究相比有以下三大特点:

  1. 当前最先进的注视路径预测研究主要集中于自由观察【4, 5, 13, 40】或视觉搜索等结构化任务【52】。本研究首次探讨复杂决策任务中的注视路径模式,并分析其与任务表现的相关性。
  2. 注视路径预测相较于显著性预测而言尚未普及,且与人类相比性能欠佳,部分原因在于训练和测试上下文的暴露偏差。本研究通过强化学习中的自批评序列训练缩小了这一差距,显著提升了性能,并超过了人类水平。
  3. 我们超越单一任务,设计了一种新机制来编码通用的任务相关信息,易于适配不同类型和复杂程度的任务。通过三个任务的实验验证,结果达到人类水平。

贡献总结

  1. 提出了一个深度强化学习模型,用于理解和预测视觉问答(VQA)等通用任务驱动场景中的注视路径,并首次将任务表现纳入预测。
  2. 显式整合任务特定深度神经网络模型生成的注意力图,编码任务相关信息&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值