本文介绍了多模态大型语言模型(MLLM)的定义、使用挑战性提示的应用场景,以及正在重塑计算机视觉的顶级模型。
目录
-
什么是多模态大型语言模型(MLLM)?
-
MLLM 在计算机视觉中的应用与案例
-
领先的多模态大型语言模型
-
未来展望
1. 什么是多模态大型语言模型(MLLM)?
简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。
示例:
图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:
-
一张医学影像
-
一个文本查询,如:“这张影像中是否存在胸腔积液?”
该系统输出一个关于该查询的预测答案。
在本文中,可能会简化“多模态大型语言模型”这一术语,直接称其为“多模态模型”。
1.1 人工智能中的多模态崛起
近年来,人工智能经历了重大变革,其中Transformer [5] 体系架构的兴起极大推动了语言模型的发展 [6]。这一架构由 Google 于 2017 年提出,并对计算机视觉领域产生了深远影响。
早期的示例包括视觉 Transformer(ViT) [7],它将图像分割为多个补丁,并将其作为独立的视觉 token 进行输入处理。
随着大型语言模型(LLM)的崛起,一种新的生成式模型