(2024|MICCAI|微软,DermaVQA 数据集)皮肤病学多语言视觉问答数据集

DermaVQA: A Multilingual Visual Question Answering Dataset for Dermatology

目录

1. 引言

1.1 关键词

2. 相关研究

2.1 消费者健康问答

2.2 视觉问答(VQA)

2.3 皮肤病图像分类

3. 数据集构建(Corpus Creation)

3.1 数据来源

3.2 数据清洗

3.3 数据统计

4. 方法

4.1 基准测试模型

4.2 评价指标

5. 结果

6. 结论与未来工作


1. 引言

随着远程医疗的发展,患者可以通过在线平台与医生进行互动。然而,这也增加了医生的工作负担,因此自动化生成回复成为提高医生工作效率的一种可能解决方案。

本研究提出 DermaVQA 数据集,用于皮肤病学领域的 多语言视觉问答(VQA)任务。该数据集包含皮肤科相关的 用户生成的健康问题及配套图片,并提供了多个医生的回复,以支持多模态问答研究。

研究贡献:

  • 数据集构建:收集了皮肤科用户生成的问答数据及相关图片,并提供多医生回复。
  • 数据标注方法:整理和处理多线程健康对话,将其转换为 问答对(QA pairs)
  • 基准测试:使用 最先进的多模态模型 进行基准测试,评估多语言自动响应生成的性能。

1.1 关键词

多模态、视觉问答(VQA)、皮肤病学、自动响应生成(Response Generation)、人工智能、数据集、医疗问答、远程医疗 

2. 相关研究

本研究涉及多个研究领域,包括 消费者健康问答、视觉问答(VQA)、皮肤病图像分类

2.1 消费者健康问答

传统健康问答研究主要基于 文本数据,例如 TREC LiveQA(2017)提出的 消费者健康问题(CHQ)数据集

在线 医生-患者对话 数据集(如 MedDialog、MedDG)包含数百万条医患对话,但大部分数据仍局限于文本,缺乏多模态信息(如图片)。

2.2 视觉问答(VQA)

视觉问答(VQA)任务结合 图像文本问题,但医学领域的 VQA 研究仍然有限,主要集中在 放射学(如 VQA-RAD、VQA-Med、PathVQA)。

医学 VQA 数据集通常 答案长度较短,问题范围有限,而 DermaVQA 数据集的回答更自然、自由,并具有较长的文本回复(>12 个词)。

2.3 皮肤病图像分类

皮肤病分类任务通常关注 疾病分类(如黑色素瘤检测)属性分类(如皮损颜色、形态),例如:

  • HAM10000(包含 10,015 张影像)
  • Fitzpatrick17k(包含 16.6k 张影像,涵盖 114 种疾病)
  • ISIC 挑战数据集(常用于皮肤病分类竞赛)

DermaVQA 不同于传统分类任务,而是基于 开放式问答任务,需要理解问题语义并生成合理的诊断或建议。

3. 数据集构建(Corpus Creation)

本研究从 IIYI Reddit 两个平台收集数据,最终构建 DermaVQA 数据集。

3.1 数据来源

IIYI 数据集(中国医疗健康论坛):

  • 用户发布问题,并附带相关图片,多个医生可回复。
  • 数据涵盖 患者及医生的互动,带有医生认证标识。

Reddit 数据集(r/DermatologyQuestions 子版块):

  • 用户可上传皮肤相关图片,并提出问题。
  • 由于回答可能来自非专业人士,因此 请专业皮肤科医生重新标注和补充回答

3.2 数据清洗

移除 包含生殖器、面部完整识别特征(如纹身)、标注信息(如箭头) 的图片。

过滤 无意义回复(如“我也想知道答案”)。

对原始多轮对话进行转换,整理为 问答对(QA pairs)

采用专业医学翻译将 IIYI 数据翻译成英文

3.3 数据统计

数据集总计 3,924 个案例,其中 IIYI 998 个,Reddit 490 个。统计如下:

平均年龄

  • IIYI:31 岁
  • Reddit:25 岁

皮肤影像数

  • IIYI:2,944 张(平均 2.9 张/案例)
  • Reddit:490 张(平均 1 张/案例)

回答数量

  • IIYI:7,214 条(平均 7.2 条/案例)
  • Reddit:583 条(平均 1.2 条/案例)

4. 方法

4.1 基准测试模型

研究使用 三种最先进的多模态模型 进行测试:

  1. Gemini-Pro Vision(Google 多模态模型)
  2. GPT-4-vision-preview(OpenAI 最新视觉问答模型)
  3. LLaVA-FT+GPT4(自定义 VQA 系统)
    • 图像到文本转换(LLaVA-Med 进行皮肤病分类)
    • 文本到文本生成(GPT-4 生成最终答案)

4.2 评价指标

deltaBLEU(改进版 BLEU,考虑参考答案的质量权重)

BERTScore(基于 BERT 计算回答与标准答案的相似度)

MEDCON(医学概念匹配,评估答案的医学术语正确性)

5. 结果

 

Gemini-Pro Vision 在 deltaBLEU 和 MEDCON 方面表现最佳,特别是在 中文数据集 上表现突出。

GPT-4-visionBERTScore 指标上表现最优,表明它的生成文本更符合人类答案的语义。

LLaVA-FT+GPT 在 Reddit 数据集上表现较好,但整体略逊色于前两者。

6. 结论与未来工作

DermaVQA 数据集 旨在填补皮肤病多模态问答领域的空白,并为 多语言自动响应生成 提供基准测试。未来研究方向包括:

  • 改进图像处理(如皮肤病区域分割、特征提取)
  • 优化医学术语匹配(提高 MEDCON 评分)
  • 探索更多多模态模型(如 BiomedCLIP)
  • 进行真实场景测试(让医生评估 AI 生成的答案)

论文地址:https://papers.miccai.org/miccai-2024/paper/2444_paper.pdf

进 Q 学术交流群:922230617 或加 V:CV_EDPJ 进 V 交流群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值