阅读笔记-MM-LLMs: Recent Advances in MultiModal Large Language Models

最新推荐文章于 2025-07-23 11:40:54 发布

原创

最新推荐文章于 2025-07-23 11:40:54 发布 · 749 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #语言模型 #人工智能

本文综述了多模态大型语言模型MM-LLMs的发展，强调了传统方法的挑战，如高计算成本和效率低下。作者提出了利用预训练LLMs增强多模态支持的策略，并详细描述了模型架构、训练流程和未来发展方向，包括实时跟踪平台。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

研究背景：随着多模态大型语言模型（MM-LLMs）的发展，它们在多种下游任务中取得了显著的性能提升。然而，随着模型规模和数据集的不断扩大，传统的多模态模型在从头开始训练时面临着巨大的计算成本。为了解决这一问题，研究者们开始利用现有的预训练单模态基础模型，特别是强大的大型语言模型（LLMs），以成本效益高的训练策略来增强多模态输入或输出的支持。这种策略旨在减轻计算开销，提高多模态预训练的效率，从而推动了MM-LLMs这一新兴领域的发展。

在这里插入图片描述

过去方案和缺点：以往的多模态模型在训练时通常需要从头开始，这不仅计算成本高，而且在处理多模态数据时存在效率低下的问题。此外，这些模型在指令遵循、零样本学习、上下文学习（ICL）和交互能力方面存在不足。此外，传统的训练流程仅包括预训练（PT）阶段，而没有包含指令微调（IT）阶段，限制了模型的灵活性和适应性。
本文方案和步骤：本文提出了一种全面的研究调查，旨在促进MM-LLMs的进一步研究。首先，文章概述了模型架构和训练流程的一般设计公式。然后，介绍了一个包含122个MM-LLMs的分类体系，每个模型都有特定的公式特征。此外，文章回顾了选定的MM-LLMs在主流基准测试上的性能，并总结了关键的训练配方以增强MM-LLMs的效能。最后，文章探