文章主要内容
本文提出了一种名为MINT(Multimodal Integrated kNowledge Transfer)的框架,旨在通过偏好优化将多模态生物医学数据中的专业知识迁移到单模态大语言模型(LLMs)中,以解决高质量多模态生物医学数据稀缺的问题。MINT利用上游多模态机器学习(MML)模型生成偏好学习数据集,通过Odds Ratio Preference Optimization(ORPO)等技术对齐下游LLMs,使其在仅使用文本或图像输入时能执行预测任务,同时保留从多模态数据中学习到的知识。
核心应用与实验结果
-
罕见遗传病预测(文本任务)
- 使用GestaltMML多模态模型(基于面部图像和临床笔记训练)生成偏好数据集,对齐轻量级文本LLM(Llama 3.2-3B-Instruct)。
- 结果显示,MINT模型在仅使用文本输入时,性能优于监督微调(SFT)、检索增强生成(RAG)、直接偏好优化(DPO)等方法,甚至超过更大的基础模型(如Llama 3.1-405B-Instruct)。
- 在零样本场景&#