大型视觉-语言模型的基准评估、应用和挑战：综述

三谷秋水

已于 2025-03-02 14:41:13 修改

阅读量1k

点赞数 18

分类专栏：大模型智能体人工智能文章标签：语言模型人工智能自然语言处理计算机视觉

于 2025-01-21 00:10:49 首次发布

本文链接：https://blog.youkuaiyun.com/yorkhunter/article/details/145205236

版权

大模型同时被 3 个专栏收录

741 篇文章

订阅专栏

智能体

513 篇文章

订阅专栏

人工智能

426 篇文章

订阅专栏

25年1月来自马里兰大学的论文“Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey”。

多模态视觉语言模型 (VLM) 已成为计算机视觉和自然语言处理交叉领域的一项变革性技术，使机器能够通过视觉和文本模态感知和推理世界。例如，CLIP [209]、Claude [10] 和 GPT-4V [273] 等模型在视觉和文本数据上表现出强大的推理和理解能力，并在零样本分类 [107] 上击败经典的单模态视觉模型。尽管它们在研究方面取得快速进展，在应用中也越来越受欢迎，但对现有 VLM 研究的全面调查却明显缺乏，特别是对于旨在将 VLM 用于特定领域的研究人员而言。为此，本文从以下方面对 VLM 进行系统的概述：[1] 过去五年 (2019-2024) 开发的主要 VLM 的模型信息；[2] 这些 VLM 的主要架构和训练方法；[3] VLM 的流行基准和评估指标的总结和分类； [4] VLM 的应用，包括具身智体、机器人和视频生成；[5] 当前 VLM 面临的挑战和问题，如幻觉、公平性和安全性。

预训练的大语言模型 (LLM)，如 LLaMA [233]、GPT-4 [195]，已在广泛的 NLP 任务中取得显著成功 [169, 180]。然而，随着这些模型的规模不断扩大 [187]，它们面临着两个挑战：(1) 高质量文本数据的供应有限 [237, 139]；(2) 单模态架构在捕获和处理现实世界信息方面的固有局限性，这需要理解不同模态之间的复杂关系 [72, 94]。这些局限性促使人们努力探索和开发 VLM，它将视觉（例如图像、视频）和文本输入结合起来，提供对视觉空间关系、目标、场景和抽象概念的更全面理解 [22, 84]。 VLM 扩展先前局限于单模态方法的表征边界，支持更丰富、更具情境信息的世界观 [58, 240, 164]，如视觉问答 (VQA) [4]、自动驾驶 [231]。与此同时，VLM 也面临着不同于单模态模型的新挑战，例如视觉幻觉。当 VLM 生成的响应不包含有意义的视觉理解，而是主要依赖于存储在 LLM 组件中的参数知识时，就会出现这种现象 [75, 148]。目前已经有几篇关于单模态模型的评论 [186, 30]，而多模态模型的评论仍然缺失。

本文对 VLM 的研究成果进行批判性分析，系统地回顾当前主要的 VLM 架构、评估和基准、应用以及 VLM 面临的挑战。

近年来，领先的人工智能 (AI) 组织不断发布新的 VLM [149]。从 OpenAI 的 CLIP [208]、Salesforce 的 BLIP [130]、DeepMind 的 Flamingo [7] 到 GPT- 4V [273] 和 Gemini [9]，这些模型变得越来越大，交互性越来越强，并说明聊天机器人功能在 VLM 框架内的集成，以支持多模态用户交互，从而改善用户体验。下表根据以下三个主要研究方向列出 2019 年至 2024 年的 SoTA VLM。

请添加图片描述

VLM 的架构正在从零开始进行预训练转变为使用预训练的 LLM 作为主干来对齐视觉和文本信息。但是，基本组件基本保持不变。上表给出 SoTA VLM 的详细信息，展示基本 VLM 架构的转变以及通过将视觉特征视为token将视觉特征与文本特征融合在一起的较新的架构创新。

通用架构组件

视觉编码器，在将视觉组件投影到与大语言模型 (LLM) 嵌入对齐的嵌入特征中起着至关重要的作用，可用于文本或图像生成 [62] 等任务。它经过训练可以从图像或视频数据中提取丰富的视觉特征，从而实现与语言表示的集成 [167, 299]。

具体来说，许多 VLM [152, 245, 48, 41] 中使用的视觉编码器，是在大规模多模态或图像数据上进行预训练的：这些编码器在图像-文本对上进行联合训练，使它们能够有效地捕捉视觉和语言关系。值得注意的例子包括 CLIP [209]，它通过对比学习对齐图像和文本嵌入，以及 BLIP [131]，它利用引导预训练实现稳健的语言-图像对齐。在大规模 ImageNet [51] 或类似数据集上进行预训练：这些编码器在大量标注的视觉数据上进行训练或通过自监督训练 [200]，使它们能够捕获特定领域的视觉特征。虽然最初是单模态的，但这些编码器（例如 ResNet [88] 或 Vision Transformers (ViTs) [57]）可以适应多模态任务。它们擅长提取有意义的目标级特征，并为视觉语言模型奠定坚实的基础。许多 SoTA VLM，例如 Qwen2-VL [245] 和 LLaVA [153]，通常都包含预训练的视觉编码器。这些编码器不仅提供稳健且有意义的视觉表示，而且对于迁移学习也非常有效 [286]。它们通过利用从训练领域中学习到的视觉知识，表现优于随机初始化的编码器 [93]。

文本编码器将token化的文本序列投影到嵌入空间中，类似于视觉编码器处理图像的方式。 CLIP [209]、BLIP [131] 和 ALIGN [110] 等模型同时使用图像编码器和文本编码器。这些模型使用对比学习在共享潜在空间中对齐图像和文本嵌入，从而有效地捕获跨模态关系。然而，较新的模型（例如 LLaVA [153]）通常不包含专用的文本编码器。相反，它们依靠大语言模型 (LLM)（例如 LLaMA [233]、Vicuna [201]）进行文本理解，通过投影层或交叉注意机制整合视觉输入 [143]。这种转变表明，在更通用和更先进的多模态推理和生成任务中，使用 LLM 的功能而不是视觉组件的趋势日益增长。

文本解码器利用 LLM 作为主要文本生成器，使用视觉编码器来投射图像特征 [118]。GPT-4V [195]、Flamingo [8] 和 Kosmos-2 [203] 都使用这种方法。这些模型通常使用最小的视觉投影机制，允许强大的语言解码器生成丰富的上下文输出。VisualBERT 和 VilBERT [160, 134] 为多模态预训练的解码器架构提供基础。从头开始训练 VLM 通常需要单独的文本解码器，而使用 LLM 作为主干通常使用 LLM 中的原始解码器。（如图所示）。

请添加图片描述

交叉注意机制通过允许来自一种模态（视觉）的token影响来自另一种模态（文本）的token，实现视觉和文本特征之间的动态交互 [143]。交叉注意层通常用于通过计算每对视觉和文本token之间的注意分数来整合跨模态的信息。并非所有模型都使用交叉注意机制。例如，VisualBERT [160] 和 Flamingo [7] 都具有交叉注意机制，而 CLIP [209] 没有交叉注意。

从头开始训练的构建模块

与使用 LLM 作为主干相比，从头开始训练 VLM 通常使用不同的训练目标和方法。自监督学习 (SSL) 无需人工标记数据即可进行预训练，从而扩大预训练规模 [87]。SSL 技术的变体包括蒙码图像建模 [86]、对比学习 [236] 和图像变换预测 [177]。

对比学习涉及使用单独的编码器进行视觉和文本输入，这些编码器经过训练以将各自的模态映射到共享的嵌入空间中。视觉编码器处理图像，从卷积神经网络 (CNN) [196] 或视觉转换器 (ViTs) [56] 等模型生成特征嵌入。文本编码器将文本输入处理成嵌入。对比学习通过最小化共享空间中视觉和文本嵌入之间的距离来对齐相关的图像-文本对。同时，它最大化不相关对嵌入之间的距离。CLIP [209]、BLIP [132] 和 ALIGN [110] 等先驱模型利用这种方法，在大规模图像-文本数据集上进行预训练，以开发用于下游任务的稳健、可迁移的表示。

使用 LLM 作为主干的构建块

大语言模型用作文本生成组件，处理编码的视觉和文本输入，以自回归方式为 VLM 生成文本输出 [25, 233, 195]。在 VLM 的上下文中，LLM 包括其原始文本解码器。

投影器将视觉编码器提取的视觉特征映射到与 LLM 中的文本嵌入对齐的共享嵌入空间中。它通常由多层感知器 (MLP) 层 [185] 组成，这些层将高维视觉表示转换为与文本模态兼容的紧凑嵌入token。投影器可以与模型的其余部分联合训练，以优化跨模态目标或冻结模型的某些部分（例如 LLM）以保留预训练的知识。大多数当代例子包括 LLaVA [152]、QWen-2-VL [245]、Nvidia VLM [48]、百川 Ocean-mini [135]、Emu3 [248] 和 Pixtral（多模态解码器）[5]。

联合训练是一种端到端方法，可并行更新模型所有组件的权重，而无需冻结任何权重，包括 LLM 和投影器层。这种方法已在 Flamingo [7] 等模型中使用。

冻结训练阶段包括在训练期间选择性地冻结模型组件，在适应新任务的同时保留预训练的知识 [96]。常见策略包括冻结预训练的视觉编码器，同时微调投影器层，并逐步解冻组件 [204] 或冻结 LLM 层，同时仅更新视觉编码器权重 [234]。

较新的架构

最近的研究重点是增强视觉和文本特征的融合。

将所有模态视为token是一种较新的方法，它将视觉输入（图像和视频）读取并编码为类似于文本token的 tokens。Emu3 [247] 使用 SBER-MoVQGAN 将视觉输入编码为token，并使用特殊分隔符（例如 [SOT] 和 [EOV]）来标记视觉token的开始和结束。它仍然保留 Llama [233] 等 LLM 架构，但扩展嵌入层以适应离散视觉token（均方根层归一化层 [291] 和多查询注意 [6]）。此外，它将视觉和文本输出的生成，视为统一多模态表示的token预测任务。

Transfusion 在单个 Transformer 架构中同时处理不同的模态 [305]。该方法通过引入战略的breakpoint来并行处理离散文本token和连续图像向量。虽然尚未完善，但该方法显示出开发能够处理多种输入类型、更统一的、多模态模型的潜力。

自 2022 年以来，随着新 VLM 的快速发展，VLM 基准的数量迅速增长 [43, 296]。全面的基准测试对于评估模型性能和确保跨数学推理、场景识别等不同方面进行稳健的训练非常重要 [161, 73]。现代 VLM 基准测试已经超越基本的视觉问答等简单任务，包括更广泛的测试，可以从更多方面更好地评估模型的多模态能力 [65]。

基准测试分类。基准测试是根据特定的测试目标而设计的，分为十个主要类别（如表所示）。

请添加图片描述

基准数据是如何收集的

基准数据集通常使用以下三种常见数据收集流程之一创建：完全人工注释的数据集；部分人工注释的数据集，通过合成数据生成进行扩展，并由人工进行部分验证；部分人工注释的数据集，通过合成数据进行扩展，并由人工进行完全验证。

完全人工注释的数据集是通过让人类收集或生成来自不同学科和领域的对抗性或挑战性测试问题来创建的。例如，MMMU[284] 有 50 名来自不同学科的大学生从教科书和讲座材料中收集现有的测试问题，通常采用多项选择题格式。另一种方法是让人类创建问题，并让注释者提供这些问题的答案。在 VCR[287] 中，Mechanical Turks 的任务是使用上下文、检测的物体和图像，为每个图像编写一到三个问题，以及合理的答案和解释。完全人工注释的数据集耗时且难以扩展，这为通过人工验证自动生成问题带来灵感。

合成问题生成已成为图表理解 [173]、视频理解 [171] 等各个学科基准生成流程中更受欢迎的一部分，以快速扩大数据集大小。常见的做法包括使用人类书面示例作为种子示例，为强大的 LLM 提供更多对抗性示例问题和答案 [126]。通常，生成过程仅涉及文本。图表和视频数据通常与视觉内容和字幕题配对，作者经常使用它们作为上下文来提示 LLM 提取答案并生成问题 [171, 133]。然而，LLM 并不总是准确的，可能会产生不真实的内容或幻觉 [268]。为了解决这个问题，流程通常包括自动过滤器以删除低质量输出，然后由众包人员对随机抽样或所有生成的示例进行验证 [173, 126, 171]。自动基准生成，有助于在减少人力的情况下扩展数据集大小。然而，目前的自动问题生成方法主要依赖于标题和文本上下文，这会导致创建易于回答的问题而不需要大量的视觉推理 [75]，这破坏基准测试的主要目标——评估 VLM 理解和推理视觉内容的能力。

模拟器中的交互主要针对机器人技术中的 VLM 基准测试。它通过在线评估由 VLM 驱动的智体来收集用于训练和评估的数据。作为一种源自强化学习的数据生成方法，这种数据生成方法适用于那些人工标注的数据集或合成数据集难以获取且成本高昂的场景，而数据构造遵循一些通用规则，如物理定律或其他一些常识。通过这种基于规则的数据获取方法，结果 VLM 对多模态输入内的偏差具有更强的鲁棒性。近年来，许多研究集中于机器人 [213、264、127、179、176、302、67] 和 Web 智体 [307] 的逼真模拟器，以模拟人类智体或机器人与物理世界的交互。尽管如此，基于模拟器交互数据记录的基准 [213、264、127] 也被广泛用于 VLM 智体的训练和评估。值得注意的是，人们更加努力地使用生成模型 [272] 甚至世界模型 [150、97、11] 来取代以前的模拟器或数据集，为 VLM 生成更实用、质量更好的数据集。虽然模拟器被广泛用于训练和评估 VLM 驱动的智体，但在将终端 VLM 移植到现实世界应用程序中时，可能存在潜在的 sim-2-real 差距，即 VLM 驱动的智体可能无法处理某些现实世界的情况。仍将朝着缓解这些问题的方向做出更多努力。

评估指标

基准是为评估而设计的，其指标在创建时就已确定。VLM 评估指标是自动的，以支持大规模重复使用，并且它们通常会影响基准中使用的问题格式。如图展示基准中使用的常见评估指标。

请添加图片描述

答案匹配广泛用于开放式和封闭式问题类型，即答案为短格式实体、长格式答案、数字或是/否。生成式 VLM 比提取式 LLM 和 VLM 更冗长，它们通常会生成冗长但正确的答案 [141]，包含精确匹配 [108] 是一种更实用的版本，在评估中更常用，包括删除预测答案的冠词和空格，并检查归一化的预测答案是否包含在归一化的黄金答案中 [125, 33]。然而，精确匹配往往具有较高的召回率，这往往无法解释黄金答案和预测答案之间的语义等价性，经常将人类可接受的正确答案误判为不正确 [26, 31, 141]，并且对于寻求长格式答案的基准测试来说变得不可能 [265]。在 LLM 成功后的指令之前，标准token重叠算法（如 F1、ROUGE [142]、BLEU [198]）用于衡量黄金答案和预测答案之间的相似度得分，但当生成模型生成更复杂、更多样化但正确的答案时，它们开始失败 [265, 31, 141, 26]。

如图所示：常见的基准评估指标限制大多数基准的格式，主要评估 VLM 是否可以生成与正确答案匹配的简短答案。

请添加图片描述

因此，一些基准测试（如 MM-Vet [281]）采用 LLM 来评估生成的答案，当答案是需要语义理解来判断正确性的长格式答案时。事实证明，LLM 评估与人工评估具有最高的相关性，但它们也面临着通过内部模型更新或更改提示指令产生一致输出的困难 [170, 300, 116]。虽然目前没有完美的答案匹配评估方法，但与开放式问题相比，是/否问题最容易评估。因此，大多数基准测试都依赖多项选择题格式来评估 VLM。
多项选择格式涉及从一组选项（包括干扰项）中选择一个答案，用于给定的视觉问题 [278、287、126、263]。这种格式提供明确的答案，并且是最容易评估的格式之一，因为它可以测量 VLM 正确回答问题的百分比。然而，LLM 已经展示一种不同寻常的能力，即使没有实际问题，它也能选择正确的答案 [17]。由于 VLM 包含一个用于生成响应的 LLM 组件，因此需要进一步研究以评估当前 VLM 基准的稳健性和可靠性。

图像/文本相似度分数通常用于图像生成基准，如 T2I-CompBench、GenEval [101、70]，以评估生成的图像与其相应文本描述之间的对齐情况。它们通常依赖于 CLIPScore [90] 等用于图像文本对齐或 ROUGE 用于字幕匹配的措施来评估输出和参考之间的语义和词汇相似性。
综上所述，VLM 基准涵盖广泛的问题类型、专业领域和任务，仅 MMLU [89] 就涵盖 57 个不同的任务。然而，流行的评估仍然主要局限于简单的答案匹配或多项选择格式，远远偏离图灵测试对一般智力的更广泛定义 [235]。

下表是各种基准和评估，以及它们的标注和数据源：

请添加图片描述

VLM 适用于各种各样的任务，从虚拟世界应用（例如虚拟具身智体）到现实世界应用（例如机器人和自动驾驶）。

具身 VLM 智体

视觉问答 (VQA) 是一项基础任务，涉及根据视觉和文本内容回答问题 [4]。它需要从图像或视频序列中提取有意义的信息，例如识别目标、场景和活动。在实践中，具身 VLM 智体 [156] 是 VQA 的一种流行应用，范围从具身个人设备聊天机器人辅助，到针对低视力用户的视觉图表解释和图表生成 [82, 181]。

具身智体是具有虚拟或物理主体的 AI 模型，可以与环境交互 [230]。纯文本智体（例如 Apple Intelligence [79]）可以通过将用户请求转换为可执行代码来处理、推理和执行用户请求以控制手机应用程序，但缺乏视觉推理能力。在这种情况下，特别关注具有虚拟身体的具身智体，特别是与 VQA 模型在个人帮助和无障碍方面的应用有关。

具身 VLM 智体作为辅助应用程序和无障碍功能，旨在帮助用户在设备上执行操作或提供屏幕答案以帮助视力低下的人。最近的发展包括：ScreenAI [13] 专门用于理解用户界面 (UI) 组件并回答有关屏幕元素的问题。智能手机助手 [55] 通过使用端到端 VLM 扩展此功能，该 VLM 直接读取视觉屏幕输入和用户请求并转换为可执行代码序列以满足用户请求操作。与智能手机助手类似，ScreenAgent [189] 使用三步法（规划、行动、反思）来处理用户请求。它首先通过自然语言描述理解 UI 组件，然后将用户请求分解为子任务，最后以函数调用格式生成鼠标和键盘操作以在用户屏幕上执行操作。此外，其中一些 VLM 智体可能还需要图表理解或生成功能，以告诉用户图形、图表或图表的含义。VLM 往往容易产生幻觉，尤其是对于经常提取错误数字的图表理解。ChartLLaMA [82] 专门针对理解各种图表或绘图视觉输入进行微调，可以更准确地提取和解释数字。尽管如此，这些 VLM 应用程序仍可作为助手，帮助用户自动执行无需用户参与的操作，并帮助残疾人士更好地访问和理解 UI 页面，以提高可访问性 [271]。

尽管具身虚拟 VLM 智体取得了进步，但它们对语言模型的依赖存在局限性，通常使用视觉作为补充作用，而不是完全整合两种模态 [75]。这些模型通常使用语言推理作为主要驱动力，视觉输入起次要作用，导致视觉理解不足，无法有效地为决策提供信息。[293，100]。除了虚拟应用之外，具身化的 VLM 智体还用于执行真实物理世界应用，例如手术规划和模拟以降低风险 [53]。

生成式视觉媒体应用

生成式 VLM 模型，包括生成式对抗网络 (GAN)[71]、扩散模型[91] 和较新的框架（如 Transfusion），广泛应用于媒体应用，以协助艺术和内容创作。生成式 VLM 模型的一个显著应用是创建 meme，一种互联网通用语言。Supermeme.ai [2] 等平台使用 VLM 模型生成 110 多种语言定制的 meme，使用户能够通过幽默或相关的视觉内容有效地表达情感或想法。此外，生成式 VLM 模型还用于电影和视觉效果。例如，MovieGen[205] 允许用户根据用户输入将静态图像转换为视觉震撼的视频效果，从而创建动态电影场景。

机器人和具身人工智能

视觉语言模型与机器人技术的融合是一个非常热门的话题，它将网络空间中的基础模型与物理世界联系起来 [157]。近几年出现大量的研究工作，重点是将 VLM 的能力应用于视觉推理 [60, 32]、复杂场景理解 [222, 155]、规划 [274, 39] 等各种任务，包括操作 [113, 102]、导航 [168, 76, 280]、人-机交互 [225, 238]、多机器人协调 [40, 251]、运动规划 [215, 111]、奖励函数设计 [288, 282, 165] 等。该领域的革命性发展引发许多尚未探索的研究问题，引起机器人界的广泛关注，同时也揭示实施过程中的许多隐藏限制。

以人为中心的人工智能

VLM 的一个重要且有前景的应用是在人类与人工智能智体交互过程中利用其对人类意图和行为的理解和推理能力。LVLM 有助于执行情绪分析 [244]、预测人类意图 [104] 并协助人类与现实世界的互动 [199]，涉及 AI4Science [28, 303]、农业 [308]、教育 [166, 257]、无障碍 [192, 294]、医疗保健 [277, 140]、气候变化 [34] 等许多社会公益应用。VLM 在所有这些领域都显示出令人印象深刻的潜力，并帮助广泛的人工智能革命对社会的每个角落产生广泛影响。

VLM 评估中的三个挑战领域：幻觉、安全性和公平性。虽然最近的改进使 VLM 能够不断达到 SOTA 性能，但了解其误用的风险对于评估和防止对最终用户（尤其是边缘群体）的伤害至关重要。以下讨论旨在强调当前的局限性和正在进行的研究，以确保可靠且合乎道德地使用 VLM。

幻觉

幻觉是指 VLM 倾向于提及相关图像中未出现的目标和/或伪像 [212]。尽管性能达到基准，但幻觉仍然是一个普遍存在的问题，尤其是在视觉文本应用任务中。研究人员已经提出量化幻觉的数据集和指标，早期的努力往往需要人工注释。对于图像字幕，Rorhrbach [212] 提出 CHAIR，这是一种基于真实字幕计算生成单词在图像中出现的比例指标。CHAIR 由两种变体组成：每个实例（测量幻觉实例的比例）和每个句子（测量包含幻觉目标句子的比例）。Li [137] 开发 POPE，它通过给定图像的一系列关于存在和不存在目标的是非问题来评估幻觉的程度。Gunjal [78] 发了 M-HalDetect，这是一个包含 16,000 个视觉 QA 样本的细粒度注释数据集，可用于训练 VLM 以检测和防止幻觉。

后续研究对幻觉进行更细致的调查。Halle-Switch 从数据量、质量和粒度的角度评估幻觉，结合情境和参数知识来控制幻觉，而不是直接消除幻觉 [289]。Hallu-Pi [54] 包含 11 种目标类型的 1260 幅图像，并附有详细注释，可以检测在受扰动输入中出现的各种幻觉类型。Zhang [276] 关注图像的前后变化，同时提出分析幻觉的新指标：真正理解、无知、固执、犹豫不决。Guan [75] 提出 HallusionBench，对不同字幕（如食物、数学、模因）和图像格式（如标志、海报、图表）提出没有肯定答案也没有视觉内容的依赖性问题，调查 VLM 的视觉推理，以检测幻觉。 [261] 开发一种自动基准生成方法，该方法利用一些主要策略通过探测 VLM 中的语言模块来获取上下文线索，从而创建不同的幻觉示例。

安全

由于 VLM 具有极大的多功能性，因此保护它们免受不道德和有害使用变得更加重要。恶意行为者可能会通过越狱利用 VLM 产生有害影响，越狱被定义为“故意规避模型的道德和操作界限”[114]，这可能对 VLM 及其在机器人等下游任务中的应用都有害[283, 60, 260]。Yinbg [279] 提出的 SafeBench，一个由 LLM 生成的针对 23 种风险场景有害查询数据集，以及使用多个 LLM 协作框架的陪审团审议协议。同样，MM-Safetybench 是另一个基准数据集，它使用与恶意文本配对的图像查询来评估 VLM 在不安全场景中的行为。

Luo [162] 发布 JailbreakV，其中包含 28,000 个恶意查询，作为 VLM 不应该响应的基于图像的攻击。该数据集还可以验证越狱攻击模型之间的可转移性。Shi [223] 开发 SHIELD，它使用 True-False 查询来评估 VLM 在零样本和少样本设置下的人脸欺骗和伪造检测性能。其他研究调查可以逆转先前使模型向合乎道德使用方向发展努力的攻击。例如，Li [138] 的 HADES 利用梯度更新和对抗方法来隐藏和放大基于图像的危害并破坏多模态对齐。Niu [191] 提出 imgJP，它使用特定图像而不是提示来绕过拒绝护栏。imgJP 已被证明可在各种 VLM 中高度迁移 [191]。

公平性

大量文献讨论 LLM 和 VLM 所传播的不公平性 [15, 66]。与单模态 LLM 类似，VLM 在下游应用中表现出不同的性能，尤其是针对某些边缘群体 [3, 106, 12]。Janghorbani & Gerard [109] 介绍 MMBias，这是一组基于目标概念（宗教、国籍、残疾、性取向）的人工注释图像数据集，并根据愉悦度进行二分分组。Wu [259] 提出 FMBench，这是一个使用带注释的医学图像进行直接和单选视觉问答的框架，以测量与性别、肤色和年龄相关的偏见。同样在医学领域，Luo [163] 发布 Harvard-FairVL，这是一组 SLO 眼底图像与具有人口统计属性的临床记录配对的数据集。 CLIP 和 BLIP2 的实证结果表明，与其他属性相比，亚裔、男性、非西班牙裔群体更受青睐 [163]。Jin [115] 提出的 FairmedFM 集成 17 个医学图像数据集，以评估下游任务分类和分割的公平性。在其他方面，Nayak 的 CulturalVQA [188] 构建 2,378 个图像问题对，每个问题都有来自不同文化的多个人工注释答案，结果显示北美文化的表现更好，非洲和伊斯兰文化的表现更差。

多模态对齐

多模态模型中的对齐问题是指不同模态之间的上下文偏差。VLM 的错位问题可能导致幻觉 [249]。人们已经做出了许多努力来缓解这个问题，要么利用 VLM 的推理能力进行自我反思 [250]，要么设计投影器来跨越不同的模态。 SIMA [250] 通过自我改进，使用自生成的响应和具有视觉指标的上下文自我批评机制，增强大型视觉语言模型 (LVLM) 中视觉和语言模态之间的对齐。SAIL [297] 引入一种高效的迁移学习框架，可将预训练的单模态视觉和语言模型对齐以用于视觉语言任务，从而增强视觉编码器的语言兼容性，以改进多模态大型语言模型。Ex-MCR [252] 通过将一种模态的空间扩展到另一种模态，引入了一种训练效率高、无需配对数据的多模态对比表示 (MCR) 方法，从而实现扩展模态之间的紧急语义对齐。OneLLM [81] 是一个统一的多模态大型语言模型 (MLLM)，它通过统一的编码器和渐进式多模态对齐将八种模态与语言对齐。

高效训练和微调

由于目前的大规模 VLM 训练起来既困难又昂贵，因此视觉语言模型的高效训练和微调一直是一个非常热门的研究课题。越来越多的近期研究集中在视觉语言模型的预训练过程上，试图了解不同模块设置 [144] 或监督 [254] 对 VLM 最终性能的影响。

同时，需要应用 VLM 的特定目的，并不一定需要 VLM 多功能的多任务性能，而是需要出色的一两项任务专业知识。通常，LoRa 方法 [98, 52] 有助于通过更改较少的参数和降低计算资源来操纵 LVLM。诸如带有人类或人工智能反馈的强化学习 (RLHF) [14, 123] 之类的方法也广泛用于微调 VLM，方法是将人类或其他 LVLM 的知识整合到微调过程中。

高质量数据集的稀缺

VLM 的能力和可靠性在很大程度上取决于训练数据集的可用性和多样性。然而，当前先进的 VLM 规模庞大，高质量训练数据集的稀缺，增加未来 VLM 性能持续改进的难度。缓解此问题的一种潜在方法是使用自监督学习 (SSL) [183]，它可以从未标记的数据集中自动学习表示。另一个主要方向是使用遵循某些规则 [16] 或利用某些第三方工具 [221] 生成的合成数据。在专为物理世界相关目的设计的 VLM 中，如机器人技术 [228] 或 Web 智体 [29]，另一种选择是从与物理模拟器或世界模型的交互中收集数据集。尽管在这三个方向上都做出大量努力，但鉴于 Ilya Sutskever 所说的“预训练无疑会结束”，人们仍然期待对 LVLM 大规模训练的突破和互联网规模数据的替代品有更多的了解。