Abstract
大多数视觉注意力模型旨在预测自上而下或自下而上的控制,这些控制通过不同的视觉搜索和自由观看任务进行研究。本文提出了人类注意力变换器(Human Attention Transformer,HAT),这是一个能够预测两种形式注意力控制的单一模型。HAT采用了一种新型的基于变换器的架构和简化的视网膜模型,这些共同构建了一种类似于人类动态视觉工作记忆的时空意识。HAT不仅在预测目标呈现和目标缺失视觉搜索中的注视扫描路径以及“无任务”自由观看中表现出色,成为新一代最先进的技术,还使人类注视行为变得可解释。与依赖粗略网格的注视单元并由于注视离散化而导致信息丢失的先前方法不同,HAT采用了顺序密集预测架构,并为每个注视点输出密集热图,从而避免了注视离散化。HAT设定了计算注意力的新标准,强调了其有效性、通用性和可解释性。HAT的广泛适用性和应用范围有望激发新型注意力模型的开发,这些模型能够更好地预测人类在各种需求注意力的场景中的行为。代码可在 GitHub - cvlab-stonybrook/HAT: CVPR 2024 "Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers"
Introduction
注意力是一个认知过程,使人类能够将有限的认知资源选择性地分配到视觉世界的特定区域,这在人体感知系统中发挥着至关重要的作用。理解和预测人类(视觉)注意力将带来许多应用,例如:能够预测个人需求和意图的辅助技术,能够优先处理人类关注区域的感知系统,提升各种视觉任务(如物体检测)的准确性和速度,以及图像/视频压缩技术,能够将更多资源分配给编码和传输高关注区域,从而优化带宽的使用。
人类注意力控制可以分为两种广泛的形式。一种是自下而上的注意力,这意味着注意力显著性信号是从视觉输入中计算出来的,并用于优先考虑注意力的转移。因此,相同的视觉输入应导致相同的自下而上的注意力转移。第二种注意力是自上而下的,这意味着任务或目标用于控制注意力。以厨房场景为例,搜索钟表或微波炉时,人们的注视点会有所不同。这两种类型的注意力控制产生了两种不同的注视点预测文献,一种使用自由观察任务研究自下而上的注意力,另一种使用目标导向任务(通常是视觉搜索)研究自上而下的注意力控制。因此,大多数模型旨在解决自下而上或自上而下的注意力,而不是两者兼顾。一个模型架构能否预测这两种注意力控制?
图1。给定图像,所提出的HAT能够在目标存在预测扫描路径;目标不存在扫描路径;自由观看。重要的是,HAT 在三个设置中在多个数据集上优于以前的最先进的扫描路径预测方法:目标存在、目标缺失视觉搜索和自由观看,分别进行了研究。
我们对这个问题的回答是HAT(人类注意力变换器),它能够预测注视路径,即可以应用于自上而下的视觉搜索和自下而上的自由观察任务(图一)。设计一个能够预测自下而上和自上而下注意力控制的统一模型架构并非易事:1)预测人类注视路径需要模型对注视图像内容及其与外部目标的关系具有时空理解;2)预测自上而下和自下而上的注意力需要模型捕捉输入图像的低级特征和高级语义。HAT通过采用一种新型变换器设计和简化的中心凹视网膜来解决这些问题。结合这两个组件,形成了一种新的范式,构成一种动态更新的视觉工作记忆。传统方法依赖循环神经网络(RNN)来维持动态更新的隐藏向量,从而在注视之间传递信息。然而,这些方法存在缺陷:RNN牺牲了解释性,而多分辨率模拟在捕捉对注视路径预测至关重要的时间和空间信息方面表现不佳。
为了解决这些挑战,我们利用计算注意力机制动态地将每次注视获取的空间、时间和视觉信息整合到工作记忆中。这使得HAT能够辨别一组特定任务的注意力权重,以整合工作记忆中的信息并预测人类的注意力控制。这一创新机制揭示了人类注意力与工作记忆之间复杂的关系,使HAT不仅在认知上合理,而且确保了其预测的可解释性。此外,与之前的方法相比,HAT将注视路径预测视为一系列密集预测任务,采用每像素监督,成功避免了注视离散化的需求。这提高了该方法在高分辨率图像场景中的有效性。为了展示HAT的通用性,我们在三种设置下预测注视路径:目标存在(TP)、目标缺失(TA)视觉搜索和自由观察(FV),涵盖了自上而下和自下而上的注意力。在之前的工作中,预测搜索路径时,为TP和TA设置分别训练了不同的模型。而HAT是一个单一模型,在TP和TA搜索路径预测中都建立了新的最先进的水平。当用FV路径训练时,HAT相对于基准模型也取得了顶尖表现。在COCO-Search18数据集和COCO-FreeView数据集上,HAT在TP、TA和FV设置下的cNSS(注意力神经信号)分别提高了95%、94%和104%。
我们的贡献可以总结如下:
- 我们提出了HAT,一种新型的变换器架构,通过整合两种不同偏心度的视觉信息(近似视网膜中心凹)来预测人类注意力的