文章主要内容
本文提出了一种名为MINT(Multimodal Integrated kNowledge Transfer)的框架,旨在通过偏好优化将多模态生物医学数据中的专业知识迁移到单模态大语言模型(LLMs)中,以解决高质量多模态生物医学数据稀缺的问题。MINT利用上游多模态机器学习(MML)模型生成偏好学习数据集,通过Odds Ratio Preference Optimization(ORPO)等技术对齐下游LLMs,使其在仅使用文本或图像输入时能执行预测任务,同时保留从多模态数据中学习到的知识。
核心应用与实验结果
-
罕见遗传病预测(文本任务)
- 使用GestaltMML多模态模型(基于面部图像和临床笔记训练)生成偏好数据集,对齐轻量级文本LLM(Llama 3.2-3B-Instruct)。
- 结果显示,MINT模型在仅使用文本输入时,性能优于监督微调(SFT)、检索增强生成(RAG)、直接偏好优化(DPO)等方法,甚至超过更大的基础模型(如Llama 3.1-405B-Instruct)。
- 在零样本场景(未见过的疾病类别)中,MINT展现了一定的泛化能力。
-
组织类型分类(图像任务)
- 使用视觉-语言基础模型PLIP生成偏好数据集,对齐图像LLM(Llama 3.2-Vision-11B-Instruct)。
- MINT显著提升了组织类型分类的准确性,尤其在区分
MINT框架:多模态知识迁移提升LLM生物医学性能

订阅专栏 解锁全文
2592

被折叠的 条评论
为什么被折叠?



