Abstract
预测人类注视在人与计算机交互(HCI)中非常重要。然而,为了实际服务于HCI应用,注视预测模型必须具备可扩展性、快速性和在空间和时间上准确的注视预测。近期的扫描路径预测模型集中在目标导向的注意力(搜索)上。这类模型在应用上存在限制,主要是因为它们通常依赖于针对所有可能物体的训练目标检测器,以及用于训练的人类注视数据的可用性(这两者都不具备可扩展性)。为此,我们提出了一个新任务,称为ZeroGaze,这是一种零样本学习的新变体,其中预测的是从未搜索过的物体的注视,我们开发了一个新模型Gazeformer来解决ZeroGaze问题。
与现有的方法使用目标检测器模块不同,Gazeformer使用自然语言模型对目标进行编码,从而利用语义相似性来进行扫描路径预测。我们采用基于变压器的编码器-解码器架构,因为变压器在生成上下文表示方面特别有效。Gazeformer在ZeroGaze设置下的表现比其他模型高出很大幅度(19%–70%)。在目标存在和目标缺失的搜索任务中,它也优于现有的目标检测模型。此外,Gazeformer的速度比现有的目标存在视觉搜索模型快五倍以上。代码可以在以下链接找到:https://github.com/cvlab-stonybrook/Gazeformer/
Introduction
人类注视行为的预测是一个计算机视觉问题,具有明确的应用于设计更具交互性的系统,以预测用户的注意力。除了回答基本的认知科学问题,注视建模还在以下领域有应用:人机交互(HCI)和增强/虚拟现实(AR/VR)系统、非侵入性医疗、视觉显示设计、机器人技术、教育等。可以预见,注视建模将在不久的将来普遍应用于所有人机交互界面。因此,需要可靠且有效的注视预测模型,同时具备高效性和快速推理能力,以便在边缘设备(如智能眼镜、AR/VR头戴设备)上使用。
我们的关注点是目标导向行为(而非自由观看),具体来说,是预测一个人在搜索特定目标物体类别(例如时钟或叉子)时的注视点。视觉搜索在无数以任务为导向的人类活动中都非常重要(例如,驾驶),无论是在真实环境还是增强/虚拟现实(AR/VR)环境中。视觉搜索的注视预测问题以图像输入为基础,输出一系列基于目标的眼动序列。
现有的搜索注视预测架构使用全景分割图或目标检测模块来编码特定的搜索目标。然而,这些方法的适用性实际上仅限于相对较少的目标物体,对于这些物体,全景分割或目标检测模型可以进行现实可行的训练。例如,要预测搜索“披萨刀”的注视点,而“披萨刀”这一物体类别并未包含在用于训练基线检测器的数据集中,就需要训练一个新的“披萨刀”检测器,这意味着这些相关方法无法超出其训练数据的范围。
与此相关的是,现有方法需要为数据集中每个目标类别(每个类别约需3000条扫描路径)费力地收集大规模的搜索行为数据集,这种方法对于人类在现实中可能搜索的无数目标来说是不可扩展的。
因此,我们引入了一个新问题,称为ZeroGaze,这是对注视预测问题的零样本学习的扩展。在ZeroGaze下,模型必须预测一个人在搜索目标(例如叉子)时的注视点,即使没有用于模型训练的搜索注视数据(例如,一个人在寻找叉子)。这个问题的更具挑战性的版本是,当目标(例如叉子检测器)也没有经过训练的检测器时。与传统的“GazeTrain”设置(模型已针对所有在推理过程中遇到的类别的注视行为进行训练)形成对比。
为了解决ZeroGaze问题,我们提出了Gazeformer,这是一种新颖的多模态扫描路径预测模型。Gazeformer具有可扩展性,因为它不需要针对特定物体类别搜索的注视行为训练基线检测器。我们使用来自语言模型(RoBERTa)的目标物体的语言嵌入,以及一个变压器编码器-解码器架构来建模图像-目标的联合表示及其内部嵌入的时空上下文。考虑到最近的语言模型能够使用任何文本字符串对任何物体进行编码,它们为那些没有注视数据可用于训练的目标类别提供了强大且可扩展的表示解决方案。此外,Gazeformer使用变压器解码器并行解码注视时间步,提供比其他任何方法显著更快的推理速度,这对人机交互产品中的注视跟踪应用(尤其是在可穿戴边缘设备中)是必要的。我们在图1中展示了模型的优势。
图1. 一个示例场景,在该场景中,训练期间仅提供"N"类别的人类扫描路径,例如“叉子”、“杯子”和“笔记本电脑”。在传统的GazeTrain设置中,模型被要求预测它在训练期间见过的这些N个目标类别的扫描路径,例如“叉子”。然而,在ZeroGaze设置中,模型需要