多模态大语言模型的 (R) 演变：调查_具身多模态语言模型 r3m-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_46094659/article/details/136887264

连接文本和视觉模式在生成智能中起着至关重要的作用。因此，受大型语言模型成功的启发，大量研究工作致力于多模态大型语言模型（MLLM）的开发。这些模型可以无缝集成视觉和文本模式作为输入和输出，同时提供基于对话的界面和指令跟踪功能。该论文对最近基于视觉的 MLLM 进行了全面回顾，分析了它们的架构选择、多模态对齐策略和训练技术。论文对这些模型进行了广泛的任务的详细分析，包括视觉基础、图像生成和编辑、视觉理解和特定领域的应用。论文还编译和描述训练数据集和评估基准，在性能和计算要求方面对现有模型进行比较。总的来说，这项调研全面概述了当前的技术水平，为未来的 MLLM 奠定了基础。
在这里插入图片描述

1. Introduction

注意力算子和 Transformer 架构的引入（Vaswani 等人，2017）使得能够创建能够处理越来越大规模的各种模式的模型。这一进步很大程度上归功于算子的多功能性和架构的适应性。最初，这一突破被用于特定于语言的模型（Devlin 等人，2018 年；Brown 等人，2020 年），但很快扩展到支持视觉处理主干（Dosovitskiy 等人，2021 年），并最终用于集成多种模式的模型（Radford 等人，2021）。
复杂的大型语言模型（LLM）的激增，特别是它们的能力情境学习鼓励研究人员扩大这些模型的范围，以涵盖多种模式，包括输入和输出。这种扩展导致了 GPT-4V（Achiam 等人，2023）和 Gemini（Anil 等人，2023）等尖端模型的开发，展示了最先进的性能。多模态大语言模型（MLLM）的开发需要合并视觉和语言的单模态架构，通过视觉到语言适配器在它们之间建立有效的连接，并设计创新的培训方法。这些方法对于确保模态一致性和准确遵循指令的能力至关重要。论文的目标是提供 MLLM 景观的详尽概述，重点关注利用视觉模态的模型。这一概述既是对当前状态的更新，也是未来发展的灵感来源。论文定义这些模型的三个核心方面：它们的架构、训练方法以及它们设计要执行的任务。论文首先详细介绍为LLMs配备跨模式功能的视觉编码器和适配器模块的普遍选择。接下来，论文深入研究训练过程和所使用的数据。然后探讨 MLLM 解决的任务范围。最后讨论了该领域持续存在的挑战以及未来研究的有希望的方向。补充材料中报告了有关训练数据、评估数据集以及性能和计算要求的更多详细信息。

2. 赋予LLMs多模态能力

2.1 大型语言模型

上下文学习，即在提示前添加一些示例来演示LLMs的期望输出，可以改善它的性能，尤其是在看不见的任务上。通过向LLMs提供每个训练样本所需任务的自然语言描述，可以进一步增强泛化能力。这种技术被称为指令调整（Chung et al., 2022；Wang et al., 2022b,a；Jiang et al., 2024），事实证明对于使LLMs的行为与人类的行为保持一致至关重要，目前赋予最先进的LLMs权力，最终通过人类反馈的强化学习（RLHF）得到提升（Ouyang et al., 2022; Achiam et al., 2023; Chen et al., 2023j; Bai et al., 2023a）。
PEFT：当预训练的 LLM 需要适应特定领域或应用时，参数高效微调 (PEFT) 方案是训练整个 LLM 的重要替代方案，因为这些策略仅引入一些新参数。其中，提示调整（Hambardzumyan et al., 2021; Lester et al., 2021; Li and Liang, 2021; Liu et al., 2023j）学习一小组向量，作为输入之前的软提示输入模型文本。不同的是ÿ