Predicting Visual Search Target by Spatiotemporal Semantic Modeling of Gaze Scanpath

Abstract

        我们提出了一种新的方法,称为 凝视扫描路径变换器(Gaze Scanpath Transformer),用于在视觉搜索任务中预测搜索目标类别。以前的视觉搜索目标估计方法仅关注凝视注视位置的图像特征。因此,之前的方法无法考虑凝视扫描路径的时空信息,也缺乏对凝视注视位置上物体语义相互关系的考虑。与此不同,我们的方法能够基于凝视扫描路径的时空信息以及凝视注视位置上图像语义特征之间的相互关系来估计视觉搜索目标。具体而言,我们通过将每个注视的位置、持续时间和注视顺序嵌入到图像语义特征中,并利用模型的注意力机制促进信息交换,从而强调图像语义特征在凝视注视位置上的重要性。使用 COCO-Search18 数据集进行的评估表明,我们提出的方法在搜索目标预测方面相较于其他最先进的基准模型取得了显著的性能提升。

    Introduction

        根据一个人的凝视行为推断其属性、行为和意图是一个具有挑战性且重要的任务,涉及多个研究领域,包括人机交互、认知科学和行为心理学。大量研究已致力于分析凝视行为,应用于不同的目的,如估计个体状态[23, 26, 40]、评估技能水平[9, 10]、衡量注意力集中程度[45, 49, 50]、判断兴趣和意图[4, 7, 31]、推断驾驶员意图[44]以及增强与机器人的互动[18, 25]。在这些应用中,建模凝视行为与图像或视频中所观看物体的语义特征之间的关系[19, 20, 36, 37]是至关重要的,且对这一领域的进一步发展有着强烈的需求。

        本研究集中于通过凝视扫描路径推断视觉搜索任务中的搜索目标类别。视觉搜索是一项任务,要求人们在有限的时间内判断给定类别的目标物体是否存在于图像中[12, 22, 47, 51]。一些先前的研究已经解决了从凝视注视点中估计搜索目标的问题,其中搜索目标存在于给定的图像中[3, 33, 38]。然而,现有方法仅关注凝视注视位置的图像特征,因此未能结合凝视扫描路径的时空信息,也缺乏捕捉不同图像区域之间图像语义相互关系的机制。在本研究中,作为视觉搜索目标推断,我们处理的是在目标是否存在于图像中的情况下,估计搜索目标类别的问题。我们使用了一种多任务学习模型,除了估计目标的类别外,还同时估计目标是否存在于图像中,并推断受试者关于目标存在与否的判断。

        本文提出了一种新方法,称为 凝视扫描路径变换器(Gaze Scanpath Transformer, GST),用于预测视觉搜索目标的类别。GST集成了时空嵌入信息,如每个注视的位置信息、持续时间和注视顺序,同时具备捕捉凝视注视位置图像语义特征之间相互关系的机制。受先前研究[3]的启发,GST首先使用现成的全景分割模型[21]从输入图像中提取语义特征。然后,GST显式地将这些特征与凝视注视的位置信息、持续时间和顺序进行嵌入。接着,配备多头注意力机制的 特征混合器(Feature Mixer) 促进了凝视注视语义特征之间信息的交换,并突出这些特征之间的相互关系。最后,这一过程产生的特征涵盖了凝视的时空信息以及注视之间的语义相互关系,随后这些特征被用于预测目标类别。

        我们的方法在 COCO-Search18 数据集 [12, 47] 上进行了视觉搜索任务的评估。在实验中,我们的方法展示了显著的性能优势,超越了现有的其他方法。通过消融实验,我们展示了凝视注视嵌入的效果以及 特征混合器(Feature Mixer) 的影响,后者促进了凝视注视位置上图像语义特征之间的相互关系交换和突出。此外,我们还评估了我们的方法在不同条件下的表现,包括目标存在、目标缺失和目标混合的视觉搜索目标推断任务。通过这些评估,我们识别出了现有问题设置中目标存在时评估的局限性,以及数据集偏差和方法的泛化能力问题。

本研究的主要贡献总结如下:

  1. 我们提出了一种新的视觉搜索目标推断模型,该模型嵌入了凝视注视位置的时空信息并捕捉语义特征之间的相互关系。
  2. 通过全面的评估和消融研究,我们的研究证明了所提方法相较于现有方法的优越性,并揭示了问题设置的局限性。

        Related Work

任务估计与凝视行为
        先前的研究表明,凝视行为可能会根据被赋予任务的不同而显著变化,例如 Yarbus [48] 最初观察到的估计画作中人物的丰富性或年龄的任务。Borji 等人随后通过实验验证了利用有效的凝视特征进行任务分类的可行性 [5]。随着数据集范围的扩大和任务种类的增加,研究领域取得了显著进展。例如,Bulling 等人创建了一个用于行动分类的数据集,该数据集结合了第一人称视频和可穿戴眼动追踪仪,展示了将凝视数据与多种模态结合的潜力 [8]。此外,近期的研究努力聚焦于利用头戴显示器(HMD)中的眼动数据,创建数据集和模型以识别虚拟现实(VR)环境中的用户任务 [17]。

视觉搜索中的扫描路径预测与分析
        扫描路径预测的研究旨在预测人们在查看图像或视频时的凝视位置,这项研究从最初的自由观看设置扩展到任务相关场景 [1, 2, 15, 39]。COCO-Search18 数据集 [12, 47] 的创建在这一领域起到了关键作用,它提供了捕捉视觉搜索过程中的眼动数据的方式,从而深入分析凝视行为。利用这些数据集,研究者提出了多种模型来预测视觉搜索中的凝视扫描路径,考虑图像和目标物体的类别 [13, 24, 28, 32, 46]。与此相反,本文提出了一种新的方法,给定图像和扫描路径作为输入,通过分析扫描路径的时空语义,预测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值