A data-efficient strategy for building high-performing medical foundation models

最新推荐文章于 2025-04-08 17:04:13 发布

小小毛桃

最新推荐文章于 2025-04-08 17:04:13 发布

阅读量553

点赞数 18

分类专栏：论文笔记文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/khtao/article/details/147039209

版权

9 篇文章

订阅专栏

复旦大学颜波团队于2025年3月在《Nature Biomedical Engineering》发表的论文《A data-efficient strategy for building high-performing medical foundation models》的核心内容解析：

医学基础模型（Medical Foundation Models）需依赖大规模高质量数据进行预训练，但医疗数据获取面临三大挑战：

数据稀缺性：高精度设备（如MRI）和长期患者跟踪（如肿瘤学）导致数据收集成本高昂、耗时漫长。
隐私风险：多中心数据集中化处理易引发患者隐私泄露。
标注成本：医学图像需专家标注，尤其在罕见病和复杂病例中成本极高。
传统方法在数据有限场景下性能受限，而生成式AI（如Stable Diffusion）的发展为合成医学数据提供了新思路。

论文提出了一种三阶段数据高效策略，结合合成数据与真实数据构建高性能医学基础模型：

• 技术路径：基于Stable Diffusion模型，以疾病标签为文本条件生成视网膜图像，模拟真实数据的生理结构（如血管、视盘）和病理特征（如出血、渗出）。
• 数据规模：生成约100万张合成图像，涵盖23种单一疾病和17种多疾病组合，确保多样性与分布一致性。

• 第一阶段：在合成数据上采用自监督学习（SSL）技术（如掩码自编码器MAE），学习图像潜在特征。
• 第二阶段：用16.7%的真实数据（150,000张）进行微调，增强模型对真实分布的适应性。

• 通过监督微调（如添加多层感知机MLP），将模型迁移至糖尿病视网膜病变分级、青光眼诊断等具体任务，显著降低标注需求（部分任务仅需40%标注数据）。

研究在眼科和胸部X光领域验证了方法的有效性：

视网膜模型（RETFound-DE）：
• 在9个公共数据集上的4项任务（糖尿病视网膜病变分级、青光眼诊断等）中，性能与全数据训练的RETFound相当或更优（AUROC提升3-5%）。
• 跨中心验证显示，模型在印度IDRID数据集训练后，在法国MESSIDOR-2数据集上的泛化能力显著优于基线（P<0.001）。
胸部X光结核检测：
• 构建的CXRFM-DE模型在结核病分类任务中AUROC达0.92，验证了方法在跨模态任务中的可推广性。
效率提升：
• 标注数据需求减少60%，训练时间缩短30%，计算资源消耗降低至传统方法的20%。