多模态大语言模型的 (R) 演变:调查


连接文本和视觉模式在生成智能中起着至关重要的作用。因此,受大型语言模型成功的启发,大量研究工作致力于多模态大型语言模型(MLLM)的开发。这些模型可以无缝集成视觉和文本模式作为输入和输出,同时提供基于对话的界面和指令跟踪功能。该论文对最近基于视觉的 MLLM 进行了全面回顾,分析了它们的架构选择、多模态对齐策略和训练技术。论文对这些模型进行了广泛的任务的详细分析,包括视觉基础、图像生成和编辑、视觉理解和特定领域的应用。论文还编译和描述训练数据集和评估基准,在性能和计算要求方面对现有模型进行比较。总的来说,这项调研全面概述了当前的技术水平,为未来的 MLLM 奠定了基础。
在这里插入图片描述

1. Introduction

注意力算子和 Transformer 架构的引入(Vaswani 等人,2017)使得能够创建能够处理越来越大规模的各种模式的模型。这一进步很大程度上归功于算子的多功能性和架构的适应性。最初,这一突破被用于特定于语言的模型(Devlin 等人,2018 年;Brown 等人,2020 年),但很快扩展到支持视觉处理主干(Dosovitskiy 等人,2021 年),并最终用于集成多种模式的模型(Radford 等人,2021)。
复杂的大型语言模型(LLM)的激增,特别是它们的能力情境学习鼓励研究人员扩大这些模型的范围,以涵盖多种模式,包括输入和输出。这种扩展导致了 GPT-4V(Achiam 等人,2023)和 Gemini(Anil 等人,2023)等尖端模型的开发,展示了最先进的性能。多模态大语言模型(MLLM)的开发需要合并视觉和语言的单模态架构,通过视觉到语言适配器在它们之间建立有效的连接,并设计创新的培训方法。这些方法对于确保模态一致性和准确遵循指令的能力至关重要。论文的目标是提供 MLLM 景观的详尽概述,重点关注利用视觉模态的模型。这一概述既是对当前状态的更新,也是未来发展的灵感来源。论文定义这些模型的三个核心方面:它们的架构、训练方法以及它们设计要执行的任务。论文首先详细介绍为LLMs配备跨模式功能的视觉编码器和适配器模块的普遍选择。接下来,论文深入研究训练过程和所使用的数据。然后探讨 MLLM 解决的任务范围。最后讨论了该领域持续存在的挑战以及未来研究的有希望的方向。补充材料中报告了有关训练数据、评估数据集以及性能和计算要求的更多详细信息。

2. 赋予LLMs多模态能力

2.1 大型语言模型

上下文学习,即在提示前添加一些示例来演示LLMs的期望输出,可以改善它的性能,尤其是在看不见的任务上。通过向LLMs提供每个训练样本所需任务的自然语言描述,可以进一步增强泛化能力。这种技术被称为指令调整(Chung et al., 2022;Wang et al., 2022b,a;Jiang et al., 2024),事实证明对于使LLMs的行为与人类的行为保持一致至关重要,目前赋予最先进的LLMs权力,最终通过人类反馈的强化学习(RLHF)得到提升(Ouyang et al., 2022; Achiam et al., 2023; Chen et al., 2023j; Bai et al., 2023a)。
PEFT:当预训练的 LLM 需要适应特定领域或应用时,参数高效微调 (PEFT) 方案是训练整个 LLM 的重要替代方案,因为这些策略仅引入一些新参数。其中,提示调整(Hambardzumyan et al., 2021; Lester et al., 2021; Li and Liang, 2021; Liu et al., 2023j)学习一小组向量,作为输入之前的软提示输入模型文本。不同的是ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值