现代医学诊断与研究高度依赖医学影像的解读与生成,从 X 光片的病灶识别到 MRI 向 CT 的图像转换,每一个环节都对 AI 系统的多模态处理能力提出了严苛要求。然而,当前医疗视觉语言模型(LVLMs)发展面临双重瓶颈:一方面,医疗数据的特殊性导致大规模高质量标注数据稀缺,公开可用的医学影像数据集规模通常仅为通用数据集的万分之一,难以支撑从零构建统一模型的需求;另一方面,理解与生成任务的内在矛盾难以调和——理解任务需要抽象语义概括,而生成任务要求细节精准保留,传统混合训练往往导致「顾此失彼」的性能衰减。
从技术演进来看,早期医疗 LVLMs 如 Med-Flamingo、LLaVA-Med 等主要聚焦于视觉理解任务,通过图像-文本对齐实现医学影像的语义解读,但缺乏「可视化」生成能力。而通用领域的统一 LVLMs 如 Unified-IO 2、Show-o 等,虽具备生成功能,却因医疗数据适配不足,在专业任务上表现欠佳。2024 年诺贝尔化学奖授予 AI 蛋白质结构预测领域的突破,从侧面印证了 AI 在生命科学领域的潜力,也让学术界意识到:构建兼具理解与生成能力的医疗 LVLMs,已成为突破当前医疗AI应用瓶颈的关键。
对此,浙江大学联合中国电子科技大学等团队提出 HealthGPT 模型,通过创新性的异构知识适配框架,成功构建了首个统一医疗多模态理解与生成的大规模视觉语言模型,为医疗 AI 的发展开辟了新路径,相关成果已入选 ICML 2025。
论文地址:
https://go.openbayes.com/xGgbp
目前,「HealthGPT:AI 医疗助手」教程已上线至

最低0.47元/天 解锁文章
942

被折叠的 条评论
为什么被折叠?



