(2024|ICANN|复旦,MISS,多任务自监督学习,TransCap 数据集)Med-VQA 的生成预训练和微调方法

MISS: A Generative Pretraining and Finetuning Approach for Med-VQA

目录

1. 引言

1.1 关键词

2. 相关工作

2.1 医疗视觉问答(Med-VQA)

2.2 视觉-语言预训练数据集

3. 方法

3.1 模型结构

3.2 预训练任务

3.3 迁移与描述(TransCap)

4. 实验

4.1 数据集与指标

4.2 实验结果

4.3 消融实验

5. 结论


1. 引言

医疗视觉问答(Med-VQA)是一个基于视觉和语言的多模态任务,旨在回答关于医疗图像的问题。尽管当前的视觉语言预训练模型(VLP)在 Med-VQA 任务中表现出色,但面临以下挑战:

  • 任务局限:通常被视为分类任务,难以适应真实应用场景。
  • 数据稀缺:由于医疗隐私和标注成本,缺乏大规模的高质量医疗图像-文本数据集。

本文提出了一个名为 MISS 的框架(MultI-task Self-Supervised-learning-based framework),以生成式任务替代传统分类任务,并通过多任务自监督学习提升性能。此外,提出了 TransCap(Transfer and Caption)方法,借助大型语言模型(LLMs)为单模态图像数据生成描述,从而扩展多模态数据集

1.1 关键词

医疗视觉问答(Med-VQA)、视觉-语言预训练(VLP)、多模态学习、生成式任务、转移与描述(TransCap)

2. 相关工作

2.1 医疗视觉问答(Med-VQA)

Med-VQA通过视觉和语言理解医疗图像内容。早期研究多采用 CNN 和 RNN 提取图像和文本特征,后续 Transformer 模型引入后提升了性能。

目前的主流方法仍将任务视为分类任务,难以应对开放式问题。

2.2 视觉-语言预训练数据集

现有数据集(如 ROCO 和 MediCaT)通常从医学论文中提取图像和描述,但包含大量噪声。

为此,TransCap 方法利用 LLM 为高质量单模态图像生成描述,以弥补数据不足。

3. 方法

图 1:预训练(a)和微调(b)

  • 我们提出了一个用于 Med-VQA 任务的预训练和微调框架 Miss,它由图像编码器、JTM 编码器和文本解码器组成。
  • ITC、ITM 和 MLM Learning 用于预训练
  • 在微调阶段,多模态联合特征(joint feature)与标记化答案(tokenized answers)交互以进行 MLM Learning。 

3.1 模型结构

MISS 框架包括以下三部分:

  • 图像编码器:采用 ViT 将图像划分为 2D 补丁(patch)并编码为高维特征。
  • 联合文本-多模态(JTM)编码器:融合文本和图像特征,采用多层 Transformer 结构,交叉注意力机制使两者充分交互。
  • 文本解码器:将融合特征转为文本答案,支持生成式问答。

其中文本表示 {w_{<cls>}, w_1,  ..., w_n} 生成查询向量 Q,图像表示 {v_{<cls>}, v_1, ..., v_n} 生成键向量 K 和值向量 V。 

3.2 预训练任务

图文对比学习(Image-Text Contrastive Learning,ITC):学习单模态特征,利用动量编码器构建对比学习。

图文匹配(Image-Text Matching,ITM):二分类任务,判定图像与文本是否匹配。

掩码语言建模(Mask Language Modeling,MLM):随机掩码部分文本,通过多模态特征预测词语。

3.3 迁移和描述(TransCap)

迁移和描述 (Transfer and Caption,TransCap) 是一种基于 LLM 扩展单模态图像数据特征空间的方法。

TransCap 利用 LLM 为无标签的医疗图像生成描述。具体流程如下:

  • 定义图像属性(模态、平面、形状、大小、器官、位置、病理)。
  • 使用 ChatGPT 生成各属性的描述文本。
  • 随机组合不同属性,形成多样化的图像-文本对。

4. 实验

4.1 数据集与指标

数据集

  • VQA-RAD:315 张图像,3515 对问答。
  • Slake:642 张图像,14028 对问答。

评价指标:准确率(ACC)。

4.2 实验结果

与现有方法对比:MISS 在开集和闭集问题上均表现优异,尤其在 Slake 数据集中超越了多项 SOTA 模型。

4.3 消融实验

JTM编码器:替换为传统编码器后,性能下降1.64%。

TransCap:在扩展数据集时,提升开放式和封闭式问答性能。

5. 结论

本文提出的 MISS 框架通过生成式任务改进了 Med-VQA 模型性能,并借助 TransCap 方法有效扩展了训练数据集。实验结果表明,该方法在少量数据的情况下,能够在多个基准数据集上达到 SOTA 水平,具有良好的应用前景。


论文地址:https://arxiv.org/abs/2401.05163
项目页面:https://github.com/TIMMY-CHAN/MISS.git

进 Q 学术交流群:922230617 或加 V:CV_EDPJ 进 V 交流群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值