**【导读】**多模态大模型主要是以LLM作为核心决策模块,主流架构有两种:LLM as Discrete Scheduler/Controller和LLM as joint part of system,第一种LLM充当任务调度的作用,第二种LLM通过Encoder-LLM-Decoder结构作为系统的关键连接部分,天花板更高。
01
MLLM架构起源
1. 基本idea:以大语言模型(LLM)作为支点
鉴于这一前提,几乎所有当前的MLLM都是基于大语言模型(LLM)构建的,作为核心决策模块(即大脑或中央处理器)。
通过添加额外的非文本模态模块,LLM具有多模态能力。
02
MLLM基本结构
1. LLM as Discrete Scheduler/Controller
LLM 角色是接受文本信号,下发调度下游模块的文本命令
代表模型: