文章目录
GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph
摘要
背景: 眼动估计在人类场景理解任务中至关重要,尤其是在医学诊断分析中。眼动追踪技术有助于记录医生在图像解释过程中的眼球运动,从而阐明他们的视觉注意力模式和信息处理策略。
目的: 在本文中定义了医学放射学报告设置中的上下文感知凝视估计问题。为了了解放射科医生在医学图像解释过程中的注意力分配和认知行为,提出了一个上下文感知的 Gaze EstiMation (GEM) 网络,该网络利用从放射科医生那里收集的眼睛凝视数据来模拟他们在整个图像解释过程中的视觉搜索行为模式。
方法: 由上下文感知模块、视觉行为图构造和视觉行为匹配组成。在上下文感知模块中,通过在医疗报告和图像之间建立连接来实现复杂的多模态配准。随后,为了更准确地模拟真实的视觉搜索行为模式,引入了一种视觉行为图结构,通过凝视点(节点)之间的高阶关系(边缘)来捕捉这种行为。为了保持视觉行为的真实性,设计了一种视觉行为匹配方法,通过匹配由真实和估计的凝视点构建的图形来调整它们之间的高阶关系。
结果: 在四个公开可用的数据集上进行的广泛实验证明了 GEM 优于现有方法及其强大的泛化性