图1:人类的扫描路径由一系列的注视和扫视组成。在注视期间,中央凹区域的视觉输入以高分辨率进行处理,而外周视觉则相应地被模糊化,以引导扫视。扫描路径预测模型通过预测下一个注视的优先级概率图,模拟人类的扫视决策。
摘要
我们提出利用扫描路径预测技术来模拟人类视觉系统,自动生成VR/AR应用中的注视扫描路径,以减少在中心视区渲染中的设备和计算成本。具体来说,我们提出了一种基于深度学习的扫描路径预测模型——视觉扫描路径变换器(VSPT),用于预测人类在自由观看和任务驱动观看情境下的注视扫描路径,基于这些路径,VR/AR系统可以快速且低成本地执行中心视区渲染。VSPT首先从视觉场景中提取高度与任务相关的图像特征,然后探索所有图像区域之间的全局依赖关系,为每个图像区域生成一个全局特征。接着,VSPT模拟人类视觉工作记忆,在预测每个注视点时,考虑所有先前注视点的影响。实验结果表明,我们的模型在做出注视决策时遵循经典视觉原则,在自由观看和任务驱动(目标驱动和问题驱动)视觉场景中,超越了现有的最先进的性能。
关键词:以人为中心的计算—人机交互(HCI)—交互技术—指向;计算方法—人工智能—计算机视觉—场景理解
引言
虚拟现实(VR)和增强现实(AR)技术通过沉浸式体验将数字世界与现实世界融合 [39],近年来得到了快速发展,并为娱乐和工业应用带来了许多新的方式。眼动研究,特别是注视估计,在VR/AR应用中扮演着至关重要的角色 [22]。一方面,注视估计可以通过分析用户的眼动和注视方向,准确追踪用户的视觉行为,从而实现VR/AR中的自然直观的人机交互(HCI) [8, 13, 31, 43]。另一方面,注视估计能够实时预测准确的注视位置,基于此,VR/AR系统可以执行更精确的中央视网膜渲染,从而以较低的计算负担获得更精确的渲染结果。此外,通过分析注视数据,VR/AR系统可以理解和预测用户的注意力和意图 [38],进而提供个性化的推荐 [6, 26] 和优化界面设计 [29],最终提升用户体验。
基于上述描述,准确预测用户的眼动注视点和注视路径在VR和AR应用中非常重要。然而,传统方法通常依赖额外的摄像头、脑电图(EEG)和其他传感器来获取关于人眼和面部的信息,并根据收集到的信息计算每个时刻的注视点,这在计算上是非常繁重的。近年来,计算机视觉领域在人眼注视点和注视路径预测方面取得了显著进展。人眼注视路径描述了人类观察视觉场景时的眼动顺序。许多研究已经证明了不同人类视觉注视路径之间的某些共性 [20, 21, 50]。通过在大量收集的注视路径数据集上进行训练,注视路径预测模型可以提取这些共性并准确预测用户的注视路径。因此,VR/AR应用可以基于注视路径预测结果提前生成中央视网膜渲染结果,用户可以初步查看虚拟环境。如果用户想查看超出注视点的其他区域,他们可以激活眼动追踪系统捕捉他们的注视位置。这样的安排可以显著减少计算量。
根据我们的观察,人们通常在两种不同的状态下观察视觉场景:自由观看和任务驱动观看。任务驱动观看可以进一步分为两种类型:目标驱动观看和问题驱动观看。为了研究不同情境下的人类视觉注视路径预测,我们聚焦于三个特定场景。首先,我们研究了自由观看下的视觉注视路径,在这种情况下,观察者可以自由地观察视觉场景,而没有特定任务。在这种情形下,观察者的注意力通常会被场景中的显著区域所吸引。其次,我们考察了目标驱动的注视路径预测,在这种情况下,观察者观察视觉场景是为了寻找一个目标。在此情境中,观察者的视觉注视路径会受到目标的影响,按一定的模式和顺序进行搜索。最后,我们讨论了问题驱动的注视路径预测,观察者在心中有特定问题的情况下观察视觉场景,期望找到答案。这个任务要求观察者聚焦于与问题相关的视觉元素,从而形成问题导向的视觉注视路径。
在本文中,我们提出了一种新的注视路径预测模型,称为视觉注视路径变换器(Visual ScanPath Transformer,VSPT),用于预测自由观看和任务驱动观看情境中的人类注视路径。VSPT将注视路径预测表述为一个顺序决策过程,通过基于原始图像和先前的注视点生成每个注视点。这模拟了人类视觉工作机制,考虑了注视历史和每个时间步骤可用的视觉信息。如图2所示,VSPT由四个主要组件组成:显著性特征提取模块、视觉编码模块、注视解码模块和注视生成模块。显著性特征提取模块根据静态显著性图(自由观看情境下)或任务引导图(任务驱动观看情境下)从原始图像中提取高度与任务相关的视觉特征。视觉编码模块利用Transformer结构探索所有图像区域之间的全局依赖关系,为每个区域生成全局特征表示。注视解码模块通过模拟视觉工作记忆预测每个时间步骤的注视嵌入。它首先