Look Hear: Gaze Prediction for Speech-directed Human Attention

Abstract

        为了使计算机系统能够有效地与人类通过口语互动,它们需要理解所生成的词语如何影响用户的逐时注意力。我们的研究集中在当一个人看到图像并听到定义应被凝视的场景中物体的指代表达时,注意力的增量预测上。为了预测在这一增量物体指代任务中的注视扫描路径,我们开发了 Attention in Referral Transformer(ART) 模型,该模型预测每个词语在指代表达中激发的人类凝视。ART 使用多模态的 Transformer 编码器来共同学习凝视行为及其基础的任务引导,同时使用自回归的 Transformer 解码器根据凝视历史为每个词语预测可变数量的注视点。为了训练 ART,我们创建了 RefCOCO-Gaze 数据集,这是一个大规模的数据集,包含 19,738 条人类凝视扫描路径,涉及 2,094 对独特的图像-表达对,来自 220 位参与者执行我们的指代任务。在我们的定量和定性分析中,ART 不仅在扫描路径预测上超越了现有方法,还能捕捉到多种人类注意力模式,如等待、扫描和验证等。代码和数据集可在以下网址获得: https://sites.google.com/view/refcoco-gaze

Keywords: Scanpath Prediction · Object Referral · Human Attention 

Introduction

        人类的独特之处在于我们使用语言来引导彼此在视觉任务中的注意力。例如,顾客对面包师说“我想要左边最小的糕点”,传达了需要选择的目标物体。理解人类如何利用这些指代表达来增量地引导注意力,是认知科学中的一个重要问题,已有超过半个世纪的研究历史,近年来的研究采用了眼动追踪方法 [3,17,38,67]。与此最相关的研究表明,指代表达中的词语与听者接下来的眼动之间有着非常紧密的联系 [34,68],这表明人类在注意力控制中会增量地整合视觉信息和逐词的语言指导。

        然而,这些研究的局限在于,它们使用了少量简单物体(通常是线条图)排列(而非场景),这限制了指代表达的语言复杂性。口语语言如何在更自然和生态有效的情境中引导他人的注意力,仍然是认知科学中的一个未解之谜。

        随着我们与计算机、车辆以及增强现实/虚拟现实(AR/VR)设备的互动不断加深,人机交互(HCI)系统也需要向用户提供有效的口头指导,以便类似地引导他们的注意力。然而,为了达到与用户高度同步的程度,HCI 系统必须能够整合视觉和语言输入,以预测人类的凝视。具备这一预测能力的应用将对时间非常敏感,并且对于一些活动至关重要,比如语音辅助的虚拟现实驾驶,它能够提供流畅且沉浸式的用户体验,在这种体验中,用户的凝视可以通过生成的语言来引导,就像与另一个人互动一样。能够增量地预测用户如何将视觉输入与口头指令结合,以引导他们的注意力,是语音辅助人机交互的一个重要进展,能够惠及广泛的应用领域,包括高效的中心视图渲染 [61]、减少虚拟现实晕动症 [1]、在人体-物体交互中的增强现实/虚拟现实眼手协调分析 [42]、虚拟现实技能训练/评估(例如,驾驶 [41]、外科手术 [6])、以及用户参与度分析 [36]。通过预测每个词语的凝视作为指导,将使语音辅助的人机交互系统能够增量地生成高效且清晰的指令,正确引导用户的注意力。与使用眼动仪测量凝视相比,预测凝视虽然更准确,但成本较高,且在上述需要凝视预测的场景(如时间紧迫的人机交互)中适用性有限,特别是在眼动仪无法使用或被禁止的情况下。

        在这个背景下,我们研究了增量物体指代任务,其中我们增量地预测人在听到描述目标的指代表达时,在图像中寻找目标物体时的眼动。这一任务在人类凝视预测的研究中尚未被研究过。标准的物体指代任务 [53, 86] 要求在给定图像和指代表达的情况下定位目标物体。我们的任务不同,因为我们旨在增量地预测人在听到表达时的注意力。我们的任务也与类别搜索任务 [89] 相关,其中人类将注意力指向图像中的某一类别目标物体。然而,我们的增量物体指代任务与类别搜索在两个关键方面有所不同。首先,在增量物体指代中,目标是通过复杂的指代表达来指定的(例如,“桌子上的红色棒球手套”),因为图像中可能包含与目标属于同一类别的其他物体。指代表达通常通过物体的属性(如“红色”)或与其他物体的空间关系(如“在桌子上”)来指代目标,这使得没有更广泛描述上下文的情况下,精确定位目标更加具有挑战性。而在类别搜索中,目标仅通过其类别名称(如“棒球手套”)来指定,这排除了描述物体的空间术语和属性。这个任务在某种程度上也不太真实,因为它排除了展示目标类别多个实例的图像(因为没有使用空间术语和属性)。

        其次,由于类别搜索研究中的注意力任务仅使用一个或两个词的类别名称来指定目标(例如“棒球手套”),因此大多数人类搜索的凝视只会在完整的指代表达提供之后才发生。这使得它成为一个简化的例子,无法体现我们希望研究的更长且更自然的指代表达,这些指代表达需要逐步分配注意力。因此,我们更具生态有效性的增量物体指代任务通过允许在真实世界的图像情境中探索自然的指代表达,并生成可测试的假设,进而为认知科学中的这一问题做出贡献,即人类是如何整合语言和视觉信息的。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值