一、原理详解
1. 多模态模型演进与架构革新
1.1 从LLaVA/Qwen2-VL到新一代模型
多模态大模型正经历从"简单拼接"到"深度融合"的范式转变。传统模型如LLaVA和Qwen2-VL主要采用"VIT-MLP-LLM"架构(如图1所示),将视觉特征通过简单MLP投影到语言模型的嵌入空间。这种架构存在语义鸿沟大、跨模态对齐弱、推理效率低三大问题。
新一代模型(InternLM-V2、Phi-2-Vision、VisualGLM-3)引入了三大核心创新:
- 动态路由机制:根据输入内容动态选择处理路径
- 细粒度对齐:从token级到特征级的多层次对齐
- 专家混合架构:针对不同任务激活不同专家模块
1.2 InternLM-V2:多专家协同的跨模态理解
InternLM-V2基于InternVL2架构进一步发展,其核心创新在于条件在线人类反馈强化学习(COOL RLHF)和多专家混合架构。
数学模型:

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



