PEFOMED: PARAMETER EFFICIENT FINE-TUNING ON MULTIMODAL LARGE LANGUAGE MODELS

最新推荐文章于 2025-12-13 07:00:14 发布

UnknownBody

最新推荐文章于 2025-12-13 07:00:14 发布

阅读量585

点赞数 9

CC 4.0 BY-SA版权

文章标签：语言模型人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136147091

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了一种针对医疗视觉问答（Med-VQA）的参数高效微调框架PEFOMED，应用于多模态大型语言模型。实验显示，该方法在Med-VQA任务上优于GPT-4v模型，特别是在开放式问题上，准确率达到81.9%。该框架具有减少训练开销并提高性能的特点，且适用于多种医疗多模态任务。

本文是LLM系列文章，针对《PEFOMED: PARAMETER EFFICIENT FINE-TUNING ON MULTIMODAL LARGE LANGUAGE MODELS FOR MEDICAL VISUAL QUESTION ANSWERING》的翻译。

摘要

多模态大型语言模型（MLLM）代表了传统大型语言模型功能的进化扩展，使其能够应对超越纯基于文本的应用程序范围的挑战。它利用了这些语言模型中先前编码的知识，从而增强了它们在多模态上下文中的适用性和功能。最近的工作研究了MLLMs对预测自由形式答案的适应性，将其作为解决医学视觉问答（Med-VQA）任务的生成任务。在本文中，我们提出了一个专门针对Med-VQA应用程序的参数有效的MLLM微调框架，并在公共基准数据集上进行了实证验证。为了准确衡量性能，我们采用了人工评估，结果显示，我们的模型总体准确率为81.9%，在封闭式问题上的绝对准确率显著优于GPT-4v模型26%。代码将在此处可用：https://github.com/jinlHe/PeFoMed.