【综述论文阅读】A Survey on Multimodal Large Language Models 上

pureblacker

已于 2025-03-05 17:41:21 修改

阅读量950

点赞数 14

文章标签：论文阅读语言模型人工智能

于 2025-03-04 16:55:08 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_46231495/article/details/145903655

版权

介绍

综述又来啦，这篇综述24年的，来自
1 中科大科技学院、认知智能国家重点实验室
2 腾讯优图实验室
并建立了github项目，持续更新

1. 引言

大语言模型的规模效益使之出现指令遵循、上下文学习和思维链能力，但无法感知视觉。而大视觉模型无法进行推理。因此两者互补结合的产物——多模态大语言模型，具有接受、推理和输出多模态能力。
该综述的后续部分结构如下：首先对 MLLM 的核心方面进行全面回顾，包括 (1) 主流架构（第 2 节）；(2) 训练策略和数据的完整配方（第 3 节）；(3) 性能评估的常见实践（第 4 节）。然后，我们深入探讨了一些关于 MLLM 的重要话题，每个话题都聚焦于一个主要问题：(1) 哪些方面可以进一步改进或扩展（第 5 节）？(2) 如何缓解多模态幻觉问题（第 6 节）？

接下来，我们介绍了三个关键技术（第 7 节），每个技术都专注于特定场景：MICL（第 7.1 节）是一种在推理阶段常用的高效技术，用于提升小样本性能。另一个重要技术是 M-CoT（第 7.2 节），通常用于复杂的推理任务。随后，我们概述了一种一般思路，开发基于 LLM 的系统来解决复合推理任务或应对常见用户查询（第 7.3 节）。

2. 架构

典型架构抽象为三个模块，即预训练的多模态编码器、预训练的大语言模型以及连接它们的多模态接口。类比人类，图像/音频编码器等多模态编码器相当于人类的眼睛/耳朵，负责接收并预处理光学/声学信号，而LLM则类似于人类的大脑，负责理解和推理处理后的信号。在这两者之间，多模态接口的作用是对齐不同的模态。一些MLLM还包括一个生成器，用于输出除文本之外的其他模态。在这里插入图片描述

2.1 多模态编码器

编码器将原始信息（如图像或音频）压缩为更紧凑的表示形式。常见的做法是使用经过预训练并与其他模态对齐的编码器，而不是从头开始训练。
以下是常用的视觉编码器：
普通的CLIP图像编码器
MiniGPT-4 采用的EVA-CLIP 编码器，该编码器通过改进的训练技术进行训练。
Osprey 引入了基于卷积的ConvNext-L编码器，以利用更高分辨率和多级特征。
一些研究还探索了无编码器的架构。例如，Fuyu-8b [49] 的图像块在发送到LLMs之前直接进行投影，因此该模型自然支持灵活的图像分辨率输入。
（难道编码器不能支持灵活的图像分辨率输入？） 在这里插入图片描述
选择编码器时，需要考虑分辨率、参数量和预训练语料库等因素。其中经验研究发现，与输入分辨率相比，参数大小和训练数据组成的重要性较低 [52]。
分辨率：实验验证使用更高分辨率可以显著提升性能 [34], [50], [51], [52]。扩展输入分辨率的方法可以分为直接缩放和分块方法。

直接缩放方法将更高分辨率的图像输入到编码器中，通常需要进一步调整编码器 [34] 或替换为更高分辨率的预训练编码器 [50]。类似地，CogAgent [44] 使用了一种双编码器机制，其中两个编码器分别处理高分辨率和低分辨率图像。高分辨率特征通过交叉注意力注入到低分辨率分支中。
分块方法将高分辨率图像切割成小块，并重用低分辨率编码器。例如，Monkey [51] 和 SPHINX [53] 将大图像分割成较小的子图像，并将子图像与下采样的高分辨率图像一起送入图像编码器，其中子图像和低分辨率图像分别捕捉局部和全局特征。

音频编码器：
①Pengi [27] 使用 CLAP [54] 模型作为音频编码器。
②ImageBind-LLM [30] 使用 ImageBind [55] 编码器，该编码器支持对图像、文本、音频、深度、热成像和惯性测量单元（IMU）数据进行编码。凭借强大的编码器，ImageBind-LLM 能够响应多种模态的输入。

2.2 预训练LLM

**预训练LLM的优势：**更加高效实用。通过大规模数据预训练嵌入了丰富的世界知识，并展现出强大的泛化和推理能力。
常用公开可用LLM如下，其中多数 LLM 属于因果解码器类别，继承自 GPT-3 [7]：
①FlanT5 系列 [56] 是较早的 LLM，被用于类似 BLIP-2 [59] 和 InstructBLIP [60] 的工作中。
②LLaMA 系列 [5], [57] 和 Vicuna 家族 [4] 是具有代表性的开源 LLM，吸引了大量学术界的关注。由于这两类 LLM 主要基于英文语料库进行预训练，因此在多语言支持方面存在局限性，例如对中文的支持较为有限。
③Qwen [58] 是一款双语 LLM，能够很好地支持中文和英文。
在这里插入图片描述
相关研究：
扩大 LLM 的参数规模能带来额外的收益，类似于提高输入分辨率的情况。Liu 等人 [50], [61] 发现，仅将 LLM 的参数规模从 7B 扩展到 13B，就能在各种基准测试中带来全面的性能提升。此外，在使用 34B 参数规模的 LLM 时，即使训练过程中仅使用英文多模态数据，模型也展现出了新兴的零样本中文能力。Lu 等人 [62] 在将 LLM 的参数规模从 13B 扩展到 35B、65B 或 70B 时观察到了类似的现象，更大的模型规模在为 MLLM 特别设计的基准测试中带来了持续的性能提升。

也有一些研究专注于使用较小的 LLM，以方便在移动设备上部署。例如，MobileVLM 系列 [63], [64] 使用了缩小版的 LLaMA [5]（称为 MobileLLaMA 1.4B/2.7B），从而实现了在移动处理器上的高效推理。

最近，关于 LLM 的专家混合（MoE, Mixture of Experts）架构的研究逐渐受到关注 [65], [66], [67]。与密集模型相比，稀疏架构通过选择性激活参数，能够在不增加计算成本的情况下扩展总参数规模。实证研究表明，MM1 [52] 和 MoE-LLaVA [68] 发现 MoE 实现方式在几乎所有的基准测试中都优于密集模型。

2.3 模态接口

模态接口的作用： LLM只能感知文本，需要弥合自然语言与其他模态之间的差距。以端到端的方式训练一个大型多模态模型的成本很高。
有两种方式实现模态接口：①在预训练的视觉编码器和LLM之间引入一个可学习的连接器。②通过专家模型将图像翻译成语言，然后将语言发送给LLM。

1、 可学习连接器：该模块将信息投影到LLM能够高效理解的空间中。根据多模态信息的融合方式，实现这种接口的方法大致有两种，即token级融合 和 特征级融合。

对于token级融合，编码器输出的特征被转换为token，并在发送到LLM之前与文本token连接。一个常见且可行的解决方案是利用一组可学习的查询token以基于查询的方式提取信息[69]，这种方法首先在*BLIP-2[59]*中实现，随后被多种工作继承[26]、[60]、[70]。这种Q-Former风格的方法将视觉token压缩为较少数量的表示向量。相比之下，一些方法仅使用基于MLP的接口来弥合模态差距[20]、[37]、[71]、[72]。例如，LLaVA系列采用一个/两个线性MLP[20]、[50]来投影视觉token并将特征维度与词嵌入对齐。

特征级融合通过插入额外的模块来实现文本特征与视觉特征之间的深度交互和融合。例如，Flamingo [74] 在冻结的 LLM Transformer 层之间插入了额外的交叉注意力层，从而利用外部视觉线索增强语言特征。类似地，CogVLM [75] 在每个 Transformer 层中插入了一个视觉专家模块，以实现视觉特征与语言特征之间的双向交互和融合。为了获得更好的性能，所引入模块的 QKV 权重矩阵初始化自预训练的 LLM。同样，LLaMA-Adapter [76] 在 Transformer 层中引入了可学习的提示（prompt）。这些提示首先嵌入了视觉知识，然后作为前缀与文本特征连接。

*MM1[52]*对连接器的设计选择进行了消融实验，发现对于token级融合，模态适配器的类型远不如视觉token的数量和输入分辨率重要。
Zeng等人[73]比较了token级和特征级融合的性能，并经验性地揭示了token级融合变体在VQA基准测试中表现更好。关于性能差距，作者认为交叉注意力模型可能需要更复杂的超参数搜索过程才能达到可比的性能。
在参数规模方面，可学习接口通常仅占编码器和 LLM 参数的一小部分。以 Qwen-VL [34] 为例，Q-Former 的参数规模约为 0.08B，占总参数的比例不到 1%，而编码器和 LLM 分别占约 19.8%（1.9B）和 80.2%（7.7B）。

2、专家模型 ：使用专家模型（如图像描述生成模型）也是一种可行的方式来弥合模态间的差距 [77], [78], [79], [80]。其基本思想是将多模态输入转换为语言表示，而无需额外训练。LLM可以通过转换后的语言来理解多模态信息。例如，VideoChat-Text [25] 使用预训练的视觉模型提取动作等视觉信息，并通过语音识别模型丰富描述内容。尽管使用专家模型的方法较为直接，但它可能不如采用可学习接口那样灵活。将其他模态的信息转换为文本会导致信息丢失。例如，将视频转换为文本描述会扭曲时空关系 [25]。

3训练策略与数据

一个完整的多模态大型语言模型（MLLM）需要经历三个训练阶段，即预训练、指令微调和对齐优化。每个训练阶段都需要不同类型的训练数据，并实现不同的目标。
本节讨论各训练阶段的训练目标，以及数据的收集方式和特性。

3.1 预训练

预训练的目标是对齐不同模态并学习多模态世界知识，通常需要大规模的文本配对数据，如字幕数据。
本篇论文考虑一种常见的场景的预训练，即 MLLM 被训练用于对齐视觉与文本。

3.1.1 训练细节

作为第一个训练阶段，预训练的主要目标是对齐不同模态并学习多模态世界知识。预训练阶段通常需要大规模的文本配对数据，例如字幕数据。通常情况下，这些字幕对以自然语言句子描述图像/音频/视频。本篇论文考虑一种常见的场景，即 MLLM 被训练用于对齐视觉与文本。

如表 3 所示，给定一张图像，模型被训练以自回归的方式预测该图像的描述（caption），采用标准的交叉熵损失函数进行优化。一种常见的预训练方法是冻结预训练模块（例如视觉编码器和 LLM），然后训练一个可学习的接口 [20], [35], [72]。其核心思想是在不丢失预训练知识的情况下对齐不同模态。一些方法 [34], [81], [82] 还会解冻更多模块（例如视觉编码器），以增加可用于对齐的可训练参数。

需要注意的是，训练方案与数据质量密切相关。对于短且噪声较大的描述数据，可以采用较低分辨率（例如 224）来加速训练过程；而对于较长且较为干净的数据，则更适合使用更高分辨率（例如 448 或更高）以减少幻觉现象的发生。此外，ShareGPT4V [83] 发现，在预训练阶段使用高质量的描述数据时，解锁视觉编码器可以促进更好的对齐效果。

3.1.2 数据

预训练数据主要服务于两个目的：(1) 对齐不同模态；(2) 提供世界知识。预训练语料库可以分为粗粒度数据和细粒度数据，表 4 总结了常用的预训练数据集。

粗粒度描述数据的特点：①数据量大：样本通常来源于互联网，因此数据量庞大。②短且噪声较大：由于这些数据是从网络爬取的，描述内容通常是图像的 alt-text，因此往往较短且包含噪声。

这些数据可以通过自动工具进行清理和过滤，例如使用 CLIP 模型 [13] 过滤掉相似度低于预定义阈值的图像-文本对。以下是几个典型的粗粒度数据集：
在这里插入图片描述

CC 系列

CC-3M [84]: CC-3M 是一个包含 330 万张图像-描述对的网络规模数据集，其中原始描述来源于与图像关联的 alt-text。作者设计了一个复杂的清洗流程：
1. 图像清洗：过滤掉内容不适当或宽高比异常的图像。
2. 文本清洗：使用 NLP 工具获取文本注释，并根据设计的启发式规则过滤样本。
3. 图像-文本对清洗：通过分类器为图像分配标签，如果文本注释与图像标签不重叠，则丢弃对应的样本。
CC-12M [85]: CC-12M 是 CC-3M 的后续工作，包含 1240 万张图像-描述对。与之前的工作相比，CC-12M 放松并简化了数据收集流程，从而收集了更多的数据。

SBU Captions [86]

SBU Captions 是一个包含 100 万张图像-文本对的带描述照片数据集，图像和描述来源于 Flickr。具体而言，通过使用大量查询词在 Flickr 网站上获取初始图像集合，附带的描述作为图像的标题。为了确保描述与图像相关，保留的图像需满足以下要求：

图像描述长度适中（由观察决定）。
描述包含至少 2 个预定义术语列表中的单词以及一个指示空间关系的介词（如“on”、“under”）。

LAION 系列

LAION 系列是大规模网络数据集，图像从互联网爬取，alt-text 作为描述。为了过滤图像-文本对，执行以下步骤：

文本和图像清洗：丢弃长度过短的文本或尺寸过小/过大的图像。
基于 URL 的图像去重。
CLIP 嵌入过滤：提取图像和文本的 CLIP 嵌入，并通过嵌入的余弦相似性丢弃可能非法的内容和低相似度的图像-文本对。

以下是 LAION 系列的一些典型变体：

LAION-5B [87]: 包含 58.5 亿张图像-文本对的研究用途数据集，其中包括一个 20 亿张英语子集。
LAION-COCO [88]: 从 LAION-5B 的英语子集中提取 6 亿张图像，描述为合成生成，使用 BLIP [89] 生成多种图像描述，并通过 CLIP [13] 选择最适合的描述。

COYO-700M [90]

COYO-700M 包含 7.47 亿张图像-文本对，数据从 CommonCrawl 中提取。为了过滤数据，作者设计了以下策略：

图像清洗：过滤掉尺寸、内容、格式或宽高比不适当的图像。此外，基于 pHash 值去除与公开数据集（如 ImageNet 和 MS-COCO）重叠的图像。
文本清洗：仅保留长度适中、名词形式正确且包含合适单词的英文文本。句子前后的空白会被移除，连续的空白字符会被替换为单个空格。出现超过 10 次的文本（如“image for”）会被丢弃。
图像-文本对清洗：基于 (图像 pHash, 文本) 元组去除重复样本。

细粒度数据生成：最近，更多研究 [83], [91], [92] 探索了通过提示强大的 MLLM（如 GPT-4V）生成高质量的细粒度数据。与粗粒度数据相比，这些数据通常包含更长且更准确的图像描述，从而实现图像与文本模态之间更精细的对齐。然而，由于这种方法通常需要调用商业用途的 MLLM，成本较高，数据量相对较小。ShareGPT4V [83] 通过一种折中方法实现了高效的数据生成：首先使用 GPT-4V 生成的 10 万条数据训练一个描述生成模型，然后利用该预训练模型扩展数据量至 120 万条。

3.2 指令微调

3.2.1 介绍

指令（Instruction） 是指任务的描述。直观来看，指令微调的目标是教会模型更好地理解用户的指令并完成所要求的任务。 通过这种方式，LLM可以通过遵循新指令泛化到未见过的任务，从而提升零样本性能。这个简单而有效的想法激发了后续自然语言处理（NLP）工作的成功，例如 ChatGPT [2]、InstructGPT [95]、FLAN [19], [56] 和 OPT-IML [96]。

监督微调（Supervised Fine-tuning）：通常需要大量的任务特定数据来训练一个任务特定的模型。
提示（Prompting）：减少了对大规模数据的依赖，并可以通过提示工程完成特定任务。在这种情况下，尽管少样本性能有所提高，但零样本性能仍然较为普通 [7]。
指令微调（Instruction Tuning）：不同于上述两种方法，指令微调专注于学习如何泛化到未见过的任务，而不是像前两者那样适应特定任务。此外，指令微调与多任务提示（multi-task prompting）密切相关。

3.2.2 训练细节

形式上，一个多模态指令样本可以用三元组的形式表示，即 ((I, M, R))，其中 (I)、(M)、® 分别代表指令、多模态输入和真实响应。多模态大型语言模型（MLLM）根据指令和多模态输入预测答案：
在这里插入图片描述
这里，(A) 表示预测的答案，(θ) 是模型的参数。训练目标通常是用于训练大型语言模型（LLM）的原始自回归目标 [20], [37], [71], [101]，在此基础上，MLLM 被鼓励预测响应中的下一个标记。该目标可以表示为：
其中，(N) 是真实响应的长度。

3.2.3 数据收集

由于指令数据在格式上更加灵活，任务表述也更加多样化，通常收集数据样本更为复杂且成本更高。有三种典型的规模化获取指令数据的方法，即数据适配、自我指令和数据混合。

数据适配

利用现有的高质量的特定任务数据集来构建指令格式化的数据集。

以视觉问答（VQA）数据集的转换为例，原始样本是一个输入-输出对，其中输入包括一张图像和一个自然语言问题，而输出是在图像条件下的问题文本答案。这些数据集中的输入-输出对可以自然地构成指令样本的多模态输入和响应。
指令（即任务描述）可以来自人工设计或通过 GPT 辅助的半自动生成。一些工作 [21], [35], [60], [70], [102], [105] 手动设计了一个候选指令池，并在训练过程中从中采样一个指令。我们在表 6 中提供了一个针对 VQA 数据集的指令模板示例。其他研究则手动设计了一些种子指令，并使用这些种子指令提示 GPT 生成更多指令 [25], [82], [98]。在这里插入图片描述
需要注意的是，由于现有 VQA 和图像描述数据集的答案通常较为简短，直接使用这些数据集进行指令微调可能会限制MLLM的输出长度。为了解决这个问题，有两种常见的策略：
1、 明确指定输出长度：例如，ChatBridge [104] 明确声明短答案数据应简洁明了，而对于传统的粗粒度图像描述数据，则要求输出为一句或多句。
2、扩展现有答案的长度：例如，M3IT [105] 提出通过提示 ChatGPT 使用原始问题、答案以及图像的上下文信息（如标题和 OCR）重新表述原始答案。

自我指令生成

尽管现有的多任务数据集可以提供丰富的数据来源，但它们通常无法很好地满足现实世界的需求，例如多轮对话场景。为了解决这一问题，一些研究通过自我指令生成方法收集样本 [106]，这种方法利用 LLM 根据少量人工标注的样本生成文本指令数据。

具体来说，首先手工设计一些指令遵循样本作为示例，然后提示 ChatGPT/GPT-4，根据这些示例生成更多的指令样本。LLaVA [20] 将这种方法扩展到多模态领域，通过将图像转换为文本（如标题和边界框），并提示仅支持文本的 GPT-4 生成新数据，从而构建了一个多模态指令数据集，称为 LLaVA-Instruct-150k。基于这一思路，后续的研究如 MiniGPT-4 [21]、ChatBridge [104]、GPT4Tools [107] 和 DetGPT [72] 开发了不同的数据集以满足不同需求。最近，随着更强大的多模态模型 GPT4V 的发布，许多研究采用 GPT-4V 生成高质量数据，例如 LVIS-Instruct4V [91] 和 ALLaVA [92]。我们在表 7 中总结了通过自我指令生成的流行数据集。在这里插入图片描述

数据混合

除了多模态指令数据外，仅语言的用户-助手对话数据也可以用于提升模型的对话能力和指令遵循能力 [81], [98], [101], [103]。LaVIN [101] 直接通过从仅语言数据和多模态数据中随机采样来构建小批量数据。MultiInstruct [102] 探讨了融合单模态和多模态数据的不同训练策略，包括混合指令微调（将两种类型的数据组合并随机打乱）和顺序指令微调（先用文本数据再用多模态数据）。

3.2.4 数据质量

近期研究表明，指令微调样本的数据质量与数量同样重要。Lynx [73] 发现，在大规模但噪声较大的图像-文本对上预训练的模型表现不如在较小但更干净的数据集上预训练的模型。类似地，Wei 等人 [108] 发现，较少但高质量的指令微调数据能够实现更好的性能。为了过滤数据，该研究提出了一些评估数据质量的指标，以及一种自动过滤低质量视觉-语言数据的方法。以下我们讨论两个关于数据质量的重要方面：

1、提示多样性：提示的多样性已被证明对模型性能至关重要。 Lynx [73] 实证验证了多样化的提示有助于提升模型性能和泛化能力。

2、任务覆盖范围：关于训练数据中涉及的任务类型，Du 等人 [109] 进行了一项实证研究，发现视觉推理任务对于提升模型性能的效果优于图像描述和问答任务。此外，该研究建议，增强指令的复杂性可能比增加任务多样性或引入细粒度的空间注释更有益。

3.3 对齐微调

3.3.1介绍

对齐微调更常用于模型需要与特定人类偏好对齐的场景，例如减少幻觉的回答。目前，基于人类反馈的强化学习（RLHF）和直接偏好优化（DPO）是对齐调优的两种主要技术。

RLHF

利用强化学习算法将LLMs与人类偏好对齐，并以人类标注作为训练循环中的监督。如InstructGPT [95]所示，RLHF包含三个关键步骤：

1、监督微调：微调预训练模型，以呈现初步期望的输出行为。在RLHF设置中，微调后的模型称为策略模型。请注意，此步骤可能会被跳过，因为监督策略模型πSFT可以从指令微调模型初始化。

2、奖励建模（Reward Modeling）
使用偏好对训练奖励模型(r_θ) 。给定一个多模态提示（如图像和文本）(x) 和一对回答 ((y_w, y_l))，奖励模型 (r_θ) 学习为更优的回答 (y_w) 分配更高的奖励，而为次优回答 (y_l) 分配较低的奖励。其目标函数如下：在这里插入图片描述
其中，(D = {(x, y_w, y_l)}) 是由人工标注者标记的比较数据集。实际上，奖励模型 (r_θ) 的结构通常与策略模型类似。

3、强化学习（Reinforcement Learning）
采用近端策略优化（PPO）算法优化强化学习策略模型 (πRL)。为了防止策略偏离原始模型过远，通常在训练目标中添加逐token的 KL 惩罚项 [95]，最终目标函数如下：在这里插入图片描述
其中，(β) 是 KL 惩罚项的系数。通常，强化学习策略 (πRL) 和参考模型 (πREF) 都从监督模型 (πSFT) 初始化。通过这一调整过程，获得的强化学习策略模型应能更好地与人类偏好对齐。

DPO

DPO 使用简单的二分类损失从人类偏好标签中学习。与基于 PPO 的 RLHF 算法相比，DPO 不需要显式学习奖励模型，从而简化了整个流程为两个步骤：人类偏好数据收集和偏好学习。其学习目标如下：在这里插入图片描述

RLHF-V [114] 通过修正模型响应中的幻觉，生成细粒度（片段级）偏好数据对，并使用这些数据执行密集的 DPO。
Silkie [115] 则通过提示 GPT-4V 收集偏好数据，并通过 DPO 将偏好监督蒸馏到指令微调模型中。

3.3.3 数据

对齐微调数据收集的核心在于收集模型回答的反馈，即决定哪个回答更好。这种数据的收集成本较高，且用于此阶段的数据量通常比前几个阶段更少。以下是部分相关数据集的介绍，并总结于表 8 中。
在这里插入图片描述

LLaVA-RLHF [112] 包含 10K 条基于诚实性和帮助性的偏好对，主要目的是减少模型响应中的幻觉。
RLHF-V [114] 包含 5.7K 条通过片段级幻觉修正收集的细粒度人类反馈数据。
VLFeedback [115] 利用 AI 提供模型响应的反馈。该数据集包含超过 380K 条由 GPT-4V 根据帮助性、忠实性和伦理关注评分的比较对。

4 评估

根据问题类型，MLLMs的评估可以大致分为两类，封闭集和开放集。

4.1 封闭集评估

闭集问题 是指答案选项预先定义且限制在一个有限集合内的问题类型。评估通常在任务特定的数据集上进行。在这种情况下，响应可以通过基准指标自然地评判。例如，InstructBLIP [60] 报告了 ScienceQA [116] 上的准确率，以及 NoCaps [118] 和 Flickr30K [119] 上的 CIDEr 分数 [117]。

评估设置通常包括零样本（zero-shot）或微调（finetuning）。第一种设置通常选择涵盖不同通用任务的广泛数据集，并将其划分为训练集（held-in）和测试集（held-out）。在前者上调整后，在后者上使用未见过的数据集甚至未见过的任务评估零样本性能。相比之下，第二种设置通常出现在领域特定任务的评估中。例如，LLaVA [20] 和 LLaMA-Adapter [76] 报告了 ScienceQA [116] 上的微调性能。LLaVA-Med [35] 报告了生物医学视觉问答（VQA）的结果。

上述评估方法通常局限于一小部分选定的任务或数据集，缺乏全面的定量比较。为此，一些研究努力开发专门为 MLLMs 设计的新基准。
Fu 等人 [123] 构建了一个综合评估基准 MME，包含 14 个感知和认知任务。MME 中的所有指令-回答对均由人工设计，以避免数据泄露。
MMBench [124] 是一个专门用于评估模型多维度能力的基准，使用 ChatGPT 将开放性回答与预定义选项匹配。
Video-ChatGPT [130] 和 Video-Bench [131] 针对视频领域，提出了专门的基准和评估工具。
还有一些评估策略专注于评估模型的某个特定方面 [102]，例如 POPE [132] 用于评估幻觉程度。

4.2 开集

与闭集问题不同，开集问题的回答可以更加灵活，在这种情况下，MLLMs 通常扮演聊天机器人的角色。由于聊天内容可以是任意的，因此相比于闭式输出，开集问题的评估更具挑战性。评估标准可以分为人工评分、GPT 评分和案例研究三类。

1. 人工评分

人工评分需要人类对生成的回答进行评估。这种方法通常涉及手工设计的问题，旨在评估特定维度的能力。
mPLUG-Owl [81] 收集了一个与视觉相关的评估集，用于判断模型在自然图像理解、图表理解和流程图理解等方面的能力。
GPT4Tools [107] 构建了两个数据集，分别用于微调性能和零样本性能的评估，并从思维、行动、论证和整体表现等方面对回答进行评价。

2. GPT 评分

GPT 评分方法常用于评估多模态对话的性能。
LLaVA [20] 提出通过仅文本的 GPT-4 从不同方面（如帮助性和准确性）对回答进行评分。具体来说，从 COCO [133] 验证集中随机抽取 30 张图像，每张图像关联一个简短问题、一个详细问题和一个复杂推理问题（通过 GPT-4 的自我指令生成）。模型生成的答案和 GPT-4 生成的答案都被发送给 GPT-4 进行比较。

将仅支持文本的 GPT-4 用作评估者的主要问题是，评估仅基于与图像相关的文本内容（如标题或边界框坐标），而无法直接访问图像本身 [35]。

随着 GPT 视觉接口的发布，一些研究 [77], [134] 开始利用更先进的 GPT-4V 模型来评估 MLLMs 的性能。Woodpecker [77] 使用 GPT-4V 根据图像判断模型回答的质量。由于 GPT-4V 可以直接访问图像，因此其评估结果预计比仅支持文本的 GPT-4 更加准确。

3. 案例研究

另一种补充方法是通过案例研究比较 MLLMs 的不同能力。例如，一些研究评估了两种典型的高级商用模型：GPT-4V 和 Gemini。
Yang 等人 [135] 通过跨多个领域和任务构建一系列样本，对 GPT-4V 进行了深入的定性分析。这些任务涵盖了从基础技能（如生成标题和物体计数）到需要世界知识和推理的复杂任务（如笑话理解和作为具身代理的室内导航）。
Wen 等人 [136] 通过设计针对自动驾驶场景的样本，对 GPT-4V 进行了更为聚焦的评估。
Fu 等人 [137] 则通过将 Gemini-Pro 与 GPT-4V 进行对比，对其进行了全面评估。结果显示，尽管响应风格不同，GPT-4V 和 Gemini 在视觉推理能力上表现出相当的水平。