本文是LLM系列文章,针对《PEFOMED: PARAMETER EFFICIENT FINE-TUNING ON MULTIMODAL LARGE LANGUAGE MODELS FOR MEDICAL VISUAL QUESTION ANSWERING》的翻译。
摘要
多模态大型语言模型(MLLM)代表了传统大型语言模型功能的进化扩展,使其能够应对超越纯基于文本的应用程序范围的挑战。它利用了这些语言模型中先前编码的知识,从而增强了它们在多模态上下文中的适用性和功能。最近的工作研究了MLLMs对预测自由形式答案的适应性,将其作为解决医学视觉问答(Med-VQA)任务的生成任务。在本文中,我们提出了一个专门针对Med-VQA应用程序的参数有效的MLLM微调框架,并在公共基准数据集上进行了实证验证。为了准确衡量性能,我们采用了人工评估,结果显示,我们的模型总体准确率为81.9%,在封闭式问题上的绝对准确率显著优于GPT-4v模型26%。代码将在此处可用:https://github.com/jinlHe/PeFoMed.
1 引言
2 相关工作
3 方法
4 实验与结果
5 结论
在这项工作中,我们提出了一种新的参数有效微调框架,作为一种生成方法,用于微调Med-VQA任务的多模态大型语言模型。
本文介绍了一种针对医疗视觉问答(Med-VQA)的参数高效微调框架PEFOMED,应用于多模态大型语言模型。实验显示,该方法在Med-VQA任务上优于GPT-4v模型,特别是在开放式问题上,准确率达到81.9%。该框架具有减少训练开销并提高性能的特点,且适用于多种医疗多模态任务。
已下架不支持订阅
1333

被折叠的 条评论
为什么被折叠?



