Ovis2.5论文核心内容总结与创新点
一、主要内容
Ovis2.5是阿里巴巴集团Ovis团队开发的多模态大语言模型(MLLM),为Ovis2的继任者,核心目标是实现原生分辨率视觉感知与强多模态推理能力,旨在解决前代模型在高视觉密度内容(如复杂图表)分析和深度推理任务中的不足。论文围绕模型架构改进、训练体系优化及性能验证展开,具体内容如下:
1. 核心架构设计
- 保留Ovis基础框架:包含视觉分词器(VT,提取图像块特征并生成概率化视觉token)、视觉嵌入表(VET,与文本嵌入表结构对齐,缓解模态间结构失配)、大语言模型(LLM,负责跨模态理解与文本生成)三大核心模块。
- 关键架构升级:
- 替换视觉编码器:用原生分辨率视觉Transformer(NaViT)替代固定分辨率ViT,支持直接处理图像原生可变分辨率,避免固定分辨率切片导致的细节丢失与全局结构破坏,且在每个ViT块集成旋转位置嵌入(RoPE)增强空间感知。
- 升级LLM骨干:将Qwen2.5替换为Qwen3,利用其更强的深度推理能力提升复杂任务与多模态综合表现。
2. 五阶段训练课程
模型训练采用循序渐进的“五阶段课程”,从基础感知到高级推理逐步构建能力:
- 视

订阅专栏 解锁全文

2235

被折叠的 条评论
为什么被折叠?



