Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by Human-Object Interaction

        Abstract

        大多数现有的注意力预测研究集中于突出实例,如人类和物体。然而,由于人类观察者对实例之间交互的理解所引发的更为复杂的面向交互的注意力,仍然未得到充分探索。这对于推动人机交互和以人为中心的人工智能同样至关重要。为了填补这一空白,我们首先收集了一个新的凝视注视数据集——IG,该数据集包含了来自740个不同交互类别的530,000个注视点,捕捉了人类观察者在理解交互过程中的视觉注意力。随后,我们提出了零-shot面向交互的注意力预测任务(ZeroIA),该任务挑战模型预测在训练过程中未遇到的交互的视觉线索。第三,我们提出了互动注意力模型(IA),旨在模拟人类观察者的认知过程,以解决ZeroIA问题。大量实验表明,所提出的IA在ZeroIA和完全监督的设置中都优于其他最先进的方法。最后,我们尝试将面向交互的注意力应用于交互识别任务本身。进一步的实验结果表明,通过结合来自IG的真实人类注意力数据和IA生成的注意力标签,可以显著提高现有最先进的HOI模型的性能和可解释性。        

 Introduction

        人类视觉注意力揭示了大量关于内部认知状态的信息,包括自下而上的视觉刺激和自上而下的目标导向经验知识[10,47,61]。预测视觉注意力有助于深入理解人类如何感知、理解和与世界互动,尤其是在目标导向的注意力背景下[3-5, 39, 46, 50]。这对提升人机交互[11, 25, 49]具有深远的意义,并且为视觉障碍辅助[15, 16]、教育[1, 51]以及自动驾驶[13, 21, 43, 65]等领域作出了贡献。

        目标导向的注意力预测研究最近取得了一些进展[8, 12, 24, 37, 42, 55–57],主要集中在预测搜索或识别物体时的凝视注视,通常涉及相对明确且不变的视觉线索。然而,交互[27, 38, 68, 69, 71],作为视觉理解的另一个基本组成部分,涉及人类与物体之间如何互动,仍然未得到充分探索。与物体相比,交互带来的认知挑战更大,因为其视觉线索既多样又微妙,如图1所示。因此,预测面向交互的视觉注意力被证明是一个比之前研究更具挑战性的任务。此外,动作的内在多样性和几乎无限的粒度与有限的可用数据相交织,迫切需要采用零-shot学习。我们将这个问题称为零-shot面向交互的注意力预测(ZeroIA)。 

         

图1. 以往的注意力预测模型通常集中于实例级别,主要强调前景中的人类和物体。相比之下,我们提出的面向交互的注意力旨在捕捉与动作相关的更微妙和更细致的视觉线索,例如身体部位(第1行)、人-物接触(第2行)和场景上下文(第3行)。这一提议为研究社区提出了一个更加复杂且认知要求更高的任务。

[8, 12, 24, 37, 42, 55–57] 的研究主要集中于在搜索或识别物体时预测凝视注视,通常是在相对明确和不变的视觉线索下进行。然而,交互[27, 38, 68, 69, 71],作为视觉理解的另一个基本组成部分,涉及人类与物体之间的互动,至今仍然未得到充分探索。与物体相比,交互所带来的认知挑战更大,因为其视觉线索多样且微妙,如图1所示。因此,预测面向交互的视觉注意力被证明是一个比以往更具挑战性的任务。

另一方面,在人-物交互(HOI)检测领域[29, 34, 53, 60, 62, 64, 66, 67],尽管当前最先进的方法在物体检测阶段表现出色,但在交互理解阶段仍面临局限性。这一局限性源于捕捉与动作相关的视觉线索的固有困难。为了解决这些问题,我们首先提出了Interactive-Gaze(IG),这是一个新的凝视注视数据集,捕捉人类在交互过程中的认知过程,填补了面向交互的视觉注意力研究中的关键空白。IG包含来自32个观察者的530,000个注视点,涵盖了740个交互类别、80个物体和132个动作。我们邀请人类观察者捕捉各种交互场景中的关键视觉线索,并记录他们在认知过程中的视觉注意力。所有交互场景均选自HOI基准数据集HICO-det [2]和VCOCO [14],这意味着IG有潜力将视觉注意力与HOI检测领域连接起来,并推动这两个研究领域的共同发展。

其次,受到人类观察者认知过程的启发,我们进一步提出了一种面向目标的注意力预测方法,称为互动注意力(IA)。我们的方法通过一组巧妙的交互导向提示和适配器,激活并利用CLIP强大的知识表示能力[48],从而促进零-shot学习。这个过程涉及基于每个视觉场景建立自适应知识原型,避免直接从CLIP检索固定的知识,因为这些知识可能会表现出强烈的名词偏向[18, 41, 45]。在这些知识的指导下,IA首先聚焦于个体实例(即人类和物体)的感知和理解,然后进一步理解实例之间展开的交互,最终完成交互导向注意力的生成。大量实验表明,IA在ZeroIA和完全监督设置中均优于其他最先进的方法。此外,我们还探索了如何将目标导向的注意力反馈到目标本身,特别是建立了一个初步的双向路径,将目标导向的注意力与动作理解相连接。我们提出了一种通用且有效的HOI训练策略。这可以为大多数最先进的模型损失提供额外的交互导向注意力监督。值得注意的是,大量实验结果揭示了视觉注意力在HOI模型中的巨大潜力,从两个方面表现突出:(1)对来自IG的有限但宝贵的真实人类交互导向注意力进行对齐,能增强现有最先进HOI模型的性能和可解释性;(2)将IA模型生成的交互导向注意力集成进HOI模型,进一步提升其性能,甚至超越了人类观察者注意力背景下的性能。

总结而言,我们工作的贡献有三个方面:

  • 首先,我们通过引入ZeroIA问题和IG数据集,填补了交互导向注意力研究中的关键空白,这是一项开创性的工作,首次提出了专门用于交互分析的凝视注视数据集。鉴于IG的复合性质,它具有促进多个领域交叉的巨大潜力,如目标导向注意力和交互理解。
  • 其次,我们提出了IA模型,这是一种新颖的方法,旨在模拟人类认知过程以预测高质量的交互导向注意力。大量实验表明,IA在ZeroIA和完全监督设置中均优于其他最先进的注意力预测方法。
  • 第三,我们提出了一种通用且简便的HOI训练策略,并证明了对IG中真实人类注意力和IA生成的注意力进行对齐,能够提升现有最先进HOI模型的性能和可解释性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值