这篇文章提出了一种名为**眼动引导的多模态对齐(EGMA)**的新框架,旨在利用放射科医生的眼动数据来改进医学图像和文本之间的特征对齐。文章的主要内容和贡献如下:
-
研究背景与问题:
-
医学多模态学习中的一个主要挑战是跨模态特征的对齐。现有的方法通常依赖于数据中的隐式对齐,缺乏对医学上下文中显式关系的考虑,导致泛化能力较差。
-
放射科医生的眼动数据可以反映他们在诊断过程中关注的图像区域,提供了有价值的辅助信息。
-
-
提出的方法:
-
EGMA框架:通过整合放射科医生的眼动数据,EGMA框架能够更好地对齐医学图像和文本特征。框架包括四个主要部分:图像和文本特征提取、眼动数据处理、眼动引导的细粒度对齐和跨模态映射。
-
眼动数据处理:将放射科医生的眼动数据与图像和文本对齐,生成注意力热图,用于指导模型训练。
-
细粒度对齐:通过对比学习,优化图像块和文本标记之间的细粒度对齐。
-
跨模态映射:利用眼动数据引导图像和文本之间的特征映射,进一步增强对齐效果。
-
-
实验与结果:
-
在多个医学数据集(如CheXpert、RSNA和SIIM-ACR)上进行了图像分类和图像-文本检索任务,EGMA框架在零样本分类和检索任务中均取得了最先进的性能。
-
实验结果表明,即使使用少量的眼动数据,EGMA也能显著提升模型的多模态处理能力和泛化性能。
-
-
贡献与创新:
-
首次将眼动数据整合到医学视觉-语言预训练中,提出了EGMA框架。
-
在多个医学数据集上验证了EGMA的优越性能,展示了其在图像分类和检索任务中的显著提升。
-
证明了少量眼动数据即可有效辅助多模态预训练,提高了模型的特征表示能力。
-
-
未来工作:
-
继续优化眼动数据的收集系统,探索眼动数据在图像和手写诊断报告之间的引导作用。
-
进一步分析眼动特征(如时间特征),优化其在多模态特征对齐中的作用。
-
EGMA框架通过利用放射科医生的眼动数据,显著提升了医学图像和文本之间的对齐效果,为医学多模态学习提供了新的思路和方法。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目地址在这里。如下所示:

摘要
在医学多模态框架中,跨模态特征的对齐是一个重大挑战。然而,现有的工作从数据中隐式地学习对齐特征,而没有考虑医学背景中的显式关系。这种数据依赖性可能导致学习到的对齐关系的泛化能力较差。在本工作中,我们提出了眼动引导的多模态对齐(EGMA)框架,利用眼动数据来更好地对齐医学视觉和文本特征。我们探索了放射科医生眼动数据在医学图像和文本对齐中的自然辅助作用,并引入了一种新颖的方法,使用放射科医生在诊断评估期间同步收集的眼动数据。我们在四个医学数据集上进行了图像分类和图像-文本检索的下游任务,EGMA在这些任务中实现了最先进的性能,并在不同数据集上表现出更强的泛化能力。此外,我们还探讨了不同数量的眼动数据对模型性能的影响,强调了将这种辅助数据整合到多模态对齐框架中的可行性和实用性。

关键词: 医学多模态对齐, 眼动, 放射学
I. 引言
随着多模态学习的发展,预训练模型现在可以利用大量的配对多模态数据(如图像-文本对、音频-文本对等)来优化多模态特征提取和对齐能力。随着CLIP模型的出现,对比学习已成为多模态学习的主要框架。该框架的优势在于其结构简单且不需要样本级注释。然而,其主要缺点是严重依赖训练数据的规模。后续的工作通过利用图像和文本数据之间的潜在辅助信息来优化该框架。例如,GLIP和RegionCLIP利用预预测的注释信息进行细粒度的区域级预训练。它们首先引入检测网络来预测与文本提示相关的图像区域,然后训练模型将这些图像区域与其对应的文本描述对齐。然而,这些模型严重依赖ROI检测器的性能,并且计算复杂度较高。FILIP提出了一种在编码器之后进行细化的多模态对齐操作,仅依赖图像块和文本标记。尽管这进一步探索了多模态数据之间的局部特征关系,但仍需要足够的数据支持。当在小规模数据集上训练时,尤其是在医学领域,准确学习模态之间的对齐特征变得更加具有挑战性。
为了解决医学数据的稀缺性问题,一些研究将自监督训练引入CLIP框架,以进一步增强编码器的性能。此外,在预训练过程中引入了图像和文本之间的弱标签,以辅助多模态对齐。一些研究利用胸部图像块和文本标记之间的细粒度对齐进行预训练。然而,与自然图像和文本不同,医学图像和诊断文本之间的关系通常更为复杂且难以学习。此外,在数据不足的情况下,模型容易学习与疾病诊断无关的捷径特征,导致泛化能力较差。因此,从相对有限的医学多模态数据集中学习有用的对齐信息至关重要。
在本研究中,我们充分探索了放射科医生眼动数据在多模态对齐中的辅助作用。眼动数据可以直观地反映放射科医生关注的图像区域,提供他们在诊断过程中认知行为的见解。因此,与边界框和掩码等精细注释相比,眼动数据也可以为模型提供有用的辅助信息。此外,在诊断过程中收集放射科医生的眼动数据比注释边界框和掩码更高效。对于多模态医学数据集,EYE GAZE和REFLACX收集了放射科医生在诊断胸部X光片时的眼动数据。此外,这些数据集还记录了同步的语音数据,放射科医生在观察图像时口头表达他们的诊断。如图1所示,我们发现放射科医生在图像上的注意力区域随着时间的推移自然地与诊断文本对齐。因此,我们认为这种眼动数据可以为训练医学视觉和文本特征之间的对齐提供专家先验知识。因此,考虑到利用眼动数据辅助多模态模型训练,我们提出了眼动引导的多模态对齐框架(EGMA)。我们的模型首先将转录的文本分割成单个句子,并获取放射科医生的注意力热图。随后,我们通过图像和文本编码器获得图像块和句子的编码特征,生成实例级相似度矩阵。然后,我们计算该矩阵与注意力热图之间的损失,整合细化的特征表示以用于后续的对比损失。为了进一步利用眼动数据在图像和文本对齐中的辅助作用,我们将眼动热图与模型导出的相似度矩阵结合,作为权重来计算跨模态映射损失。在零样本分类和检索任务的实验结果中,我们的框架在多个数据集和多种数据集规模情况下均超越了其他领先方法的性能。具体而言,EGMA框架在图像到文本匹配任务中实现了显著的3.9%提升,在文本到图像匹配任务中实现了令人印象深刻的19.75%提升。这些结果突显了我们方法的先进性和有效性,展示了其在现有方法基础上的显著进步。我们还探讨了使用不同规模的眼动数据对模型的辅助效果,发现即使少量的眼动数据也能增强模型的多模态处理能力。此外,EGMA的微调分类结果在多个数据集上均取得了最佳性能。
总结,本工作的主要贡献如下:
-
我们提出了EGMA,一种用于医学多模态对齐的新框架,首次尝试将眼动数据整合到视觉-语言预训练中。
-
EGMA在现有的医学多模态预训练方法中表现优异,并在图像分类和图像-文本检索任务中实现了显著提升。
-
EGMA表明,即使少量的眼动数据也能有效辅助多模态预训练,并提高模型的特征表示能力。
II. 相关工作
A. 医学视觉-语言预训练(Med-VLP)
在追求通用人工智能(AGI)的过程中,视觉-语言预训练(VLP)已成为人工智能研究中的一个关键领域。Transformer架构的出现不仅开启了视觉和语言融合的新篇章,还显著加速了多模态领域的进展。在这一阶段,VLP框架主要关注融合编码器的发展。这些框架采用交叉注意力机制来融合视觉和文本特征,通常采用双流架构。CLIP的引入标志着VLP领域的一个重大突破,催生了许多基于CLIP的VLP框架。这些框架将对比损失作为基本组成部分,从而丰富了VLP方法的范围和有效性。
在医学领域,多模态预训练也取得了快速进展。ConVIRT是医学领域中与CLIP相当的模型。MedCLIP通过整合知识提取技术,解决了医疗保健中配对图像-文本数据不足的问题。同样,BioViL通过训练专门的生物医学文本BERT编码器,在对比学习任务中表现出增强的性能。在多级对齐方面,GLoRIA提出了实例级和标记级的多模态全局-局部表示学习。MGCA引入了病理区域、实例和疾病三个层次的对齐。此外,一些研究还结合了知识库,将医学领域的专家知识注入系统。
B. 放射学中的眼动追踪技术
在医学影像诊断中,专业放射科医生的视觉分析起着决定性作用。眼动追踪技术是该领域的一项关键技术,在过去几十年中已在放射学研究中证明了其价值。早期研究发现,经验丰富的放射科医生能够通过全面观察快速识别隐藏的病变,这一过程依赖于他们更广阔的视野和广泛的专业知识。例如,Ellen等人揭示了经验丰富的放射科医生如何系统地检查标准胸部X光片,这与新手医生形成鲜明对比。
在医学深度学习领域,整合放射科医生的眼动数据是一个重大进展。Khosravan等人成功地将这些数据与卷积神经网络(CNN)结合,提高了病变检测的准确性。进一步探索中,Mall等人研究了乳腺X光片中的视觉搜索模式,建立了人类视觉注意力与CNN在检测乳腺X光片病变中的性能之间的关键联系。Karargyris等人开发了一个包含眼动数据和疾病诊断的综合数据集,促进了该领域的多任务处理。类似地,Wang等人引入了一个注意力一致性模块,利用放射科医生的视觉注意力来提高CNN在诊断膝关节X光片骨关节炎中的准确性。在这些进展的基础上,Ma等人最近探索了将眼动数据与先进的视觉Transformer(ViT)模型结合,进一步推动了医学图像处理的边界。
在多模态任务的探索中,Men等人创新性地设计了一个多模态引导系统。该系统巧妙地复制了超声检查中超声医师的眼动追踪和探头操作的结合动态。通过有效模仿医学专家的专业知识,该系统显著提高了超声扫描的准确性和效率。然而,将这些眼动数据与图像-文本对齐策略结合以增强医学视觉-语言模型的有效性,仍然是一个尚未完全解决的研究领域。

图2:EGMA框架。在图像和文本通过部分A中的编码器处理后,获得图像块特征和句子特征表示,生成实例级的细粒度相似度矩阵。随后,在部分B中获得的两种基于眼动的辅助信息分别用于部分C中的细粒度对齐和部分D中的跨模态映射对齐。
III. 方法
如图2所示,我们提出的方法框架由四个主要部分组成。首先,我们在部分A中从图像和文本中提取特征,以获得细化的实例级相似度矩阵。其次,在部分B中,我们整合了来自放射科医生音频、图像和眼动数据的文本转录,以可视化和映射放射科医生在诊断过程中对图像特定区域的注意力。这一过程建立了文本和图像之间的对齐,促进了模型训练。详细的眼动数据处理方法在第III-A节中描述。鉴于眼动数据紧密连接了文本和局部视觉信息,在从部分B获得辅助信息后,我们引入了眼动引导的细化对齐训练策略,如图2的C和D部分所示。具体而言,我们在第III-B节中介绍了眼动引导的细粒度文本-图像相似度矩阵的优化算法。最后,在第III-C节中,我们介绍了眼动引导的跨模态映射算法。
A. 多模态数据处理
随着眼动追踪和语音识别等数据收集技术的发展,收集和处理放射科医生在诊断过程中的多模态交互数据已成为可能。在本工作中,我们使用MIMIC-EYE数据集作为训练集,该数据集包含从MIMIC数据集中提取的3689张图像。每个样本都附有相应的眼动数据和转录文本。这些眼动数据由PhysioNet上公开的EYE GAZE和REFLACX数据集提供。由于每种模态是同步的,音频数据与眼动数据在时间上对齐。通过根据每个单词发音前后的时间对音频进行分段,我们可以将转录与音频对齐,从而将句子级文本与眼动数据对齐。随后,我们基于眼动数据和图像生成注意力热图,以表示放射科医生关注的图像区域。通过上述数据处理步骤,我们实现了句子级文本与图像区域之间的精确对齐。详细的眼动和音频转录处理方法可在补充材料中找到。
B. 眼动引导的细粒度对齐
对比学习的核心思想是使相关样本的特征更接近,同时使不相关样本的特征远离。在CLIP模型的训练过程中,假设批次大小为b,输入数据为{xkI,xkT}(k=1,⋯,b),表示图像-文本对,通过图像编码器EI和文本编码器ET获得全局特征zkI=EI(xkI)∈R1×d和zkT=ET(xkT)∈R1×d。随后,计算两种模态之间的余弦相似度sk,lI2T和sk,lT2I,公式如下:
sk,lI2T=COS(zkI,zlT),sk,lT2I=COS(zkT,zlI)1⩽l⩽b
其中sk,lI2T是图像到文本的相似度,sk,lT2I是文本到图像的相似度,l是另一种模态的索引号。然后,xkI的图像到文本对比损失LkI2T和xkT的文本到图像对比损失LkT2I可以表示为:
LkI2T(xkI,{xlT}b)=−1blogexp(sk,kI2T/τ)∑l(exp(sk,lI2T/τ))LkT2I(xkT,{xlI}l=1b)=−1blogexp(sk,kT2I/τ)∑l(exp(sk,lT2I/τ))
其中τ是学习的温度。值得注意的是,在上述损失的计算中,图像和文本都利用了全局级特征,而从眼动数据生成的辅助信息强调了模态之间的局部级特征。因此,基于[4],我们将实例特征zkI和zkT替换为Pkn∈Rn×d和Skm∈Rm×d,其中Pki(1⩽i⩽n)是xkI的第i个图像块特征,Skj(1⩽j⩽m)是xkT的第j个句子特征,n,m分别是图像块数和报告中的句子数。然后我们计算句子到图像块xkS2P∈Rm×n和图像块到句子xkP2S∈Rn×m在一个实例中的相似度:
xkS2P=COS(Skj,Pki),xkP2S=COS(Pki,Skj)
对于每个句子对应的热图,我们首先将其划分为与图像相似的n个图像块。随后,我们将m个句子的热图连接起来,获得输入{xkI,xkT}的Gaze-guided Similarity矩阵GSk(如图2.B所示)。在该矩阵中,非零元素表示相应句子和图像块之间的语义相关性。因此,我们对GSk进行二值化,将非零区域设置为1,得到Gaze-guided Label矩阵GLk。在此步骤之后,我们计算xkS2P和xkP2S的多标签交叉熵(MLCE)损失,完成正样本对{xkI,xkT}之间的细粒度对齐优化,如下所示:
fLkS2P=mloc(xkS2P,GLk)fLkP2S=mlce(xkP2S,(GLk)T)
其中mlce是多标签交叉熵损失。随后,我们计算细粒度特征z^kI=Meani(Maxj(xkP2S))和z^kT=Meanj(Maxi(xkS2P))。然后,我们用更新的z^kI,z^kT替换Eq. 1中的zkI,zkT。最后,基于Eq. 2计算细粒度的图像到文本损失L^kI2T和文本到图像损失L^kT2I。我们的Eye-gaze Guided Fine-grained (EGF)对齐损失公式如下:
LEGF=12b∑k=1b(fLkS2P+fLkP2S)+12∑k=1b(L^kT2I+L^kI2T)
C. 眼动引导的跨模态映射
在上一节中,我们用考虑局部特征的细粒度实例logits替换了传统批次clip损失中的全局实例logits,并使用眼动信息优化了这些局部特征之间的对齐。我们工作中的文本是放射科医生在观察图像时记录的,这意味着焦点区域与相应文本之间存在紧密的语义关系。为了进一步优化模态之间的对齐,我们继续将眼动数据辅助引入跨模态映射过程。在本工作中,我们首先利用矩阵GSk、xkP2S和xkS2P生成图像到文本和文本到图像的对齐权重矩阵WI2T∈Rn×m和WT2I∈Rm×n。计算公式如下:
WI2T=norm(ω(xkP2S)+GSk)WT2I=norm(ω(xkS2P)+(GSk)T)
其中norm是归一化,ω由稀疏和二值化操作组成。在获得权重矩阵后,我们根据以下公式执行从文本特征Skm到图像特征Cross_Pkn∈Rn×d和从图像特征Pkn到文本特征Cross_Skm∈Rm×d的映射:
Cross_Pki=∑j=1mSkj⋅WijI2T,Cross_Skj=∑i=1nPki⋅WjiT2I
其中i∈[1,n]是Pkn的第i个图像块特征,j∈[1,m]是Skm的第j个句子特征。随后,我们使用映射特征和目标特征作为输入来计算Eq. 2中定义的对齐对比损失,获得图像映射损失mLkI和文本映射损失mLkT。我们的Eye-gaze Guided cross-model Mapping (EGM)损失公式如下:
LEGM=12∑k=1b(mLkI+mLkT)
最后,我们模型在一个批次内的总损失为L=LEGF+LEGM。在我们的训练过程中,考虑到眼动数据的比例,批次可能包含两种类型的数据。当遇到没有眼动数据的样本时,EGF模块不计算Eq. 4中的损失,EGM模块的Eq. 6中的权重矩阵也不包括GSk。

IV. 实验
在本研究中,我们首先在第IV-A节中进行监督和零样本分类以及零样本检索实验,以验证模型的泛化性能及其多模态特征表示能力。然后,在第IV-B节中,我们对EGMA的各个模块进行消融研究。此外,为了进一步研究眼动数据的辅助效果,我们比较了在不同数量的眼动数据引导下的性能。最后,在第IV-C节中,我们可视化了模型的特征表示和学习到的图像-文本关系,进一步展示了模型的性能和可解释性。
A. 与最先进方法的比较
图像分类 我们在CheXpert、RSNA和SIIM-ACR数据集上进行了监督分类实验。CheXpert是一个用于胸部X光片解释的大规模公共数据集,包含224,316张胸部X光片图像。我们遵循[11],使用官方训练集作为我们的训练集,并使用202张带有专家标签的官方验证集作为我们的测试集。RSNA是一个用于肺炎诊断的综合数据集,包含29,700张胸部X光片图像,分为“正常”和“肺炎”阳性类别。我们遵循[11]将数据分为70%用于训练,15%用于验证,15%用于测试。SIIM-ACR是一个用于气胸诊断的胸部数据集,包含2379张气胸图像和8300张非气胸图像。在本工作中,我们使用[42]中定义的子集作为我们的测试集,其余数据用于训练和验证。更多数据集详细信息可在补充材料中找到。
在监督分类实验中,我们采用线性分类设置[10],其中预训练的图像编码器被冻结,仅训练随机初始化的线性分类头。我们采用ROC曲线下面积(AUROC)指标来评估所有模型的性能。为了更好地验证模型的效率,我们使用1%、10%和100%的训练集测试其性能。如表I所示,我们的模型与其他模型相比取得了最佳结果。此外,仅使用1%的训练集,我们的模型在CheXpert、RSNA和SIIM-ACR数据集上分别比第二好的模型高出1.11%、0.8%和1.94%。此外,随着训练数据量的增加,模型的性能显著提高。这表明,在放射科医生眼动数据的辅助下,我们的模型具有强大的多模态特征表示能力。

我们进一步在CheXpert5x200、RSNA和SIIM-ACR数据集上进行了零样本分类任务。CheXpert5x200包括五种常见的胸部疾病,分别是肺不张、心脏肥大、实变、水肿和胸腔积液,每种疾病有200张胸部X光片。值得注意的是,CheXpert训练集不包括任何来自CheXpert5x200的数据,因此不存在数据泄露问题。RSNA和SIIM-ACR的测试集与监督分类任务中使用的相同。所有文本提示均由专业放射科医生提供[10]。在测试过程中,我们计算了图像特征与所有疾病文本提示特征之间的相似度,相似度最高的类别即为预测类别。如表II所示,CLIP在医学图像上表现不佳,因为其训练数据主要由自然图像组成。第二到第五行的模型使用在医学数据集上预训练的编码器,因此其性能优于CLIP。有趣的是,GLoRIA和MGCA在SIIM-ACR数据集上诊断肺炎的表现比CLIP模型差。这表明这些模型受数据分布的影响较大,导致泛化性能较差。相反,我们的EGMA在所有其他指标上均取得了最佳结果,除了RSNA数据集上的F1分数。这表明,通过眼动数据增强的我们的模型学习了更一般的医学图像和文本之间的特征关系,显著提高了其泛化性能。

图像-文本检索 为了进一步验证我们的模型在视觉和文本特征之间的对齐能力,我们比较了EGMA与其他模型在CheXpert 8x200数据集上的零样本检索性能。与CheXpert5x200不同,CheXpert8x200包括八种常见的胸部疾病,分别是无发现、心脏肥大、水肿、肺炎、肺不张、气胸、胸腔积液和骨折,每种疾病有200张胸部X光片和五个相应的文本提示。值得注意的是,检索任务的提示与上一节分类任务的提示不同,但所有提示均由经过认证的放射科医生编写。在图像到文本检索任务中,我们首先计算图像与所有候选文本之间的相似度,然后对检索结果进行排序。同样,在文本到图像任务中,我们计算文本提示与所有图像之间的相似度,并对检索结果进行排序。我们报告了Top-1、Top-5和Top-10的精度,这些指标反映了检索到的相关样本数量。如表III所示,我们的模型在两个检索任务中均取得了最佳结果。我们的模型在图像到文本和文本到图像检索任务中分别比第二好的模型在P@1、P@5和P@10指标上高出3.9%、5.88%和4.33%,以及19.75%、14.50%和12%。这表明我们的模型充分学习了图像和文本之间的关系,实现了更好的对齐效果。
B. 消融研究
为了进一步验证模型的性能,我们对提出的EGF和EGM模块进行了消融实验,同时评估了眼动数据比例对模型结果的影响。如表IV的上半部分所示,第一行代表我们的基线模型,其中我们使用在CheXpert和MIMIC-CXR数据集上预训练的初始化权重[9]。第二行“MLCE”表示在我们的EGF模块中,EGF损失不进一步计算Eq. 4,而是仅计算眼动引导的相似度矩阵与模型输出相似度矩阵之间的多标签交叉熵(MLCE)损失。第三行“EGF”使用Eq. 5中描述的眼动引导的细粒度损失。第四行“EGM”表示模型仅通过眼动引导的跨模态映射方法进行训练。最后,第五行展示了我们提出的EGMA模型,该模型整合了上述由眼动数据引导的模块。
在表IV中,可以观察到,仅使用眼动引导的MLCE损失的方法在CheXpert 5x200数据集上显著提高了性能,在RSNA上略有提高,但在SIIM-ACR数据集上严重下降。然而,使用EGF或EGM的模型在SIIM-ACR上显示出显著改进。这表明,虽然MLCE在某些数据集上提高了性能,但同时也降低了模型的泛化能力。因此,仅依赖简单的相似度矩阵损失是不够的。在本工作中,通过结合眼动引导的图像-文本关系与细粒度特征对齐(EGF),尽管模型在CheXpert 5x200上的性能略有下降,但其整体泛化能力有所提高。同样,为了增强模型的多模态对齐能力,引入眼动引导的跨模态映射导致性能和改进的泛化能力,EGM在RSNA数据集上实现了最佳性能。最后,当使用眼动优化细粒度对齐和跨模态对齐时,模型在所有三个数据集上均取得了主导性能,展示了泛化能力的进一步增强。
许多研究表明,使用眼动数据训练模型可以实现与使用细粒度手动注释训练的模型相当的性能。同时,收集细粒度手动注释的成本显著高于收集眼动数据的成本。因此,将眼动数据整合到预训练任务中是提高模型性能的可行方法。为了进一步验证我们的模型使用眼动数据的效率,我们对训练集中眼动数据的比例进行了消融实验。我们的训练数据集MIMIC-EYE共有3695个样本。我们使用1%、5%、10%和50%的眼动数据进行消融实验,分别得到37、185、370和1848个具有放射科医生先验信息的样本。我们重复每个实验三次,以消除随机采样带来的偏差,并报告平均结果。如表IV的下半部分所示,当使用1%的眼动数据训练时,模型在CheXpert 5x200数据集上的性能有所提高。然而,由于数据量有限,模型在其他数据集上的性能不如基线。当眼动数据增加到5%时,模型在所有三个数据集上均显示出显著改进。随着眼动数据的不断增加,模型的性能也有所提高。因此,即使使用少量的眼动数据(185个样本),我们的框架也能有效指导模型的多模态处理能力,确保性能提升。这进一步说明了我们模型的适用性及其低训练成本的特点。
C. 可视化
为了更好地展示EGMA框架学习到的文本与放射图像之间的对应关系,我们在图3中进行了跨模态注意力图的可视化。在眼动数据的引导下,EGMA框架在准确定位疾病区域方面明显优于其他最先进的方法。在图4中,我们使用t-SNE可视化了CLIP和我们的EGMA模型在CheXpert 5x200数据集图像上的特征表示。可以观察到,我们的模型表现出更好的聚类表示。未在医学数据上训练的CLIP模型无法有效区分这些疾病。更多t-SNE可视化结果可参考补充材料,其他最先进方法[10, 11]的聚类性能也逊色于我们的EGMA。

V. 讨论与结论
在本工作中,我们揭示了放射科医生眼动数据在多模态对齐中的重要作用,并提出了一个名为EGMA的眼动引导多模态对齐框架。我们的框架首先将眼动数据处理为标记级关系矩阵,然后利用这些矩阵优化图像块和文本标记之间的细粒度对齐。此外,该框架整合了跨模态映射,利用眼动数据双向引导图像和文本之间的特征映射,从而增强了模型处理多模态数据的能力。我们在多个数据集上评估了EGMA的零样本能力和微调性能,并观察到分类和检索任务的显著改进。此外,我们研究了眼动数据规模对性能的影响,发现即使少量的眼动数据也能在预训练过程中增强模型的多模态对齐能力。总体而言,我们的EGMA框架探索了将放射科医生的眼动数据整合到模型训练中以辅助多模态特征对齐的可行性,为眼动数据在医学多模态领域的应用奠定了基础。
A. 局限性与讨论
我们的工作仅在分类和检索任务中与最先进的方法进行了比较,没有进行病变定位或分割等下游任务。此外,我们的模型严重依赖MIMIC-EYE等多模态数据集,这些数据集可以同时收集眼动数据、医学图像和诊断文本。收集这些数据的场景也是一个重要的考虑因素。例如,在临床超声诊断中,放射科医生通常使用双手操作设备,并口头向助手传达诊断信息。在这种情况下,同时记录超声图像、眼动数据和音频是方便的。相比之下,在MIMIC-EYE的胸部X光诊断中,放射科医生通常直接以文本形式记录诊断信息,而不是口头表达。幸运的是,最近的一些努力[14, 18]正在关注如何自然地收集放射科医生在诊断过程中的多模态数据。他们设计了更灵活的收集系统,更好地适应放射科医生的日常工作,这对于广泛采用收集眼动信息等多模态诊断数据至关重要。
B. 潜在影响
尽管我们使用的眼动数据是公开的,并且我们有权使用它,但一些研究表明,观察者的性别、年龄和精神状态等私人信息可以从眼动数据中提取出来。因此,隐私问题一直是使用眼动数据的一个焦点。为了解决这个问题,我们建议使用去识别方法来过滤眼动数据,或以热图形式发布数据,而不是原始数据。
C. 未来工作
在未来,我们将继续优化这些提出的收集系统[45, 46],并探索眼动数据在图像和手写诊断报告之间的引导作用,以加速其在真实医学诊断场景中的应用。这将为缓解数据注释压力和增强模型可解释性提供研究基础。此外,我们将继续分析眼动特征,如时间特征,并进一步优化其在多模态特征对齐中的作用。我们相信这项工作可以为眼动数据在多模态框架中的应用提供有价值的参考,并促进其在医学多模态领域的发展。
1444

被折叠的 条评论
为什么被折叠?



