#1024程序员节 | 征文#
Abstract
saccadic scanpath(扫视路径)是人类视觉行为的数据表示,在多个领域受到了广泛关注。扫视路径是一种复杂的眼动追踪数据形式,包括注视位置序列和注视持续时间,结合了图像信息。然而,以前的方法通常面临注视特征的空间错位问题以及关键时间数据的丢失(包括时间相关性和注视持续时间)。在本研究中,我们提出了一种基于Transformer的扫视路径模型SpFormer,以缓解这些问题。首先,我们提出了一种以注视为中心的范式,以提取对齐的空间注视特征并对扫视路径进行标记。然后,依据视觉工作记忆机制,我们设计了一种局部元注意力,以减少注视的语义冗余,并引导模型关注元扫视路径。最后,我们逐步整合持续时间信息,并将其与注视特征融合,以解决随着Transformer块的增加而出现的位置模糊问题。我们在四个数据库上进行广泛实验,涵盖三个任务。SpFormer在不同设置中建立了新的最先进结果,验证了其在实际应用中的灵活性和多样性。代码可以从https://github.com/wenqizhong/SpFormer
Introduction
人类视觉系统(HVS)在感知中起着至关重要的作用,它接收和处理人类所感知的大多数信息。人类的视觉行为提供了对HVS潜在机制的宝贵见解。全面理解人类视觉可以极大地促进各种下游任务,例如显著性预测(Liu et al. 2015; Huang et al. 2015; Wang et al. 2019)、显著物体检测(Han et al. 2018; Fan et al. 2021)、扫视路径预测(Xia et al. 2019)、分割(Lang et al. 2022)、焦点检测(Zhang et al. 2022)以及辅助诊断(Liu, Li, and Yi 2016; Xia et al. 2022)。用于表示人类视觉行为的两种主要数据类型是显著性图和扫视路径。显著性图通常表示一组的静态空间注意力分布概率,而扫视路径则通常描绘个体的时空注意力分布。因此,扫视路径非常适合在各个领域进行个体层面的分析和预测(Xia et al. 2022; Dalrymple et al. 2019; Mohammadhasani et al. 2020)。
这张图片展示了两种不同的视觉追踪路径:Scanpath和Meta Scanpath。这些路径通常用于研究人们在观看图像时的视线移动模式。
Scanpath (s):指的是观看者在图像上的视线移动路径。图中用橙色的线和星星标记表示,显示了观看者在图像上关注的位置和顺序。
Fixation Position (f):指的是观看者在图像上停留注视的位置,通常用星星标记表示。
Fixation Duration (d):指的是观看者在某个位置停留注视的时间,图中用粉色的圆圈表示,圆圈的大小可能与注视时间的长短有关。
图片中展示了三组不同的场景,每组场景都有对应的Scanpath和Meta Scanpath。Meta Scanpath可能是对多个观看者的Scanpath进行汇总或分析后得到的平均或典型路径。
扫视路径是一种独特而复杂的数据模态,但现有的扫视路径方法往往忽视了其复杂性。扫视路径是由注视位置和相应的注视持续时间组成的多元时间序列(见图1)。此外,扫视路径与激发注意行为的图像刺激密切相关。总体而言,扫视路径的复杂特性可以总结为三个关键方面:1)扫视路径表示为多元时间序列;2)扫视路径的每个时间步骤由一对注视位置和注视持续时间组成;3)扫视路径与相应的图像刺激之间存在耦合关系。
第三点的意思是,扫视路径(即眼睛的移动轨迹)与观看的图像刺激之间是相互关联的。具体来说,眼睛在观察图像时,扫视路径不仅受图像内容的影响,还会影响观众对图像的理解和反应。这种耦合关系意味着,观众的注视点和注视时间会根据图像的特征(如颜色、对比度、形状等)而变化,同时这些注视行为也可能影响他们如何处理和记忆图像中的信息。
然而,之前基于扫视路径的模型并没有全面考虑上述特性。一般来说,医学和心理学领域的现有方法通常基于手工特征进行统计分析,例如,不同区域的注视比例(Jones和Klin 2013)。在计算机领域,近年来逐渐出现了基于学习的扫视路径模型(Jiang和Zhao 2017;Dalrymple等人 2019;Rahman等人 2021)。
然而,这些方法在完全建模上述扫视路径特性方面显得不足和弱小。因此,这些模型面临注视特征空间错位、忽视时间关联和注视持续时间等问题,无法为下游任务提供有效的扫视路径表示。为了实现更强的表示,模型应结合