多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?

本文介绍了多模态大型语言模型(MLLM)的定义、使用挑战性提示的应用场景,以及正在重塑计算机视觉的顶级模型。

目录

  1. 什么是多模态大型语言模型(MLLM)?

  2. MLLM 在计算机视觉中的应用与案例

  3. 领先的多模态大型语言模型

  4. 未来展望


1. 什么是多模态大型语言模型(MLLM)?

简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。

示例:
图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:

  1. 一张医学影像

  2. 一个文本查询,如:“这张影像中是否存在胸腔积液?”
    该系统输出一个关于该查询的预测答案。

在本文中,可能会简化“多模态大型语言模型”这一术语,直接称其为“多模态模型”。

1.1 人工智能中的多模态崛起

近年来,人工智能经历了重大变革,其中Transformer [5] 体系架构的兴起极大推动了语言模型的发展 [6]。这一架构由 Google 于 2017 年提出,并对计算机视觉领域产生了深远影响。

早期的示例包括视觉 Transformer(ViT) [7],它将图像分割为多个补丁,并将其作为独立的视觉 token 进行输入处理。

随着大型语言模型(LLM)的崛起,一种新的生成式模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值