再创开源多模态大模型性能标杆,书生·万象3.0升级发布,创新预训练方法

驱动科学研究的人工智能正逐渐改变科学研究的模式,在探索以通专融合实现通用人工智能(AGI)的进程中,通用基座大模型,尤其是具备跨模态理解能力的多模态大模型至关重要——多模态大模型的创新突破,将大幅提升模型同时处理文本、图像、视频等数据的能力,从而为科研创新提供基础性支撑。

2025年4月16日,上海人工智能实验室(上海AI实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10亿~780亿参数的全量级版本在开源模型中性能均位列第一,同时大幅提升了图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

• 在专家级多学科领域知识推理基准测试MMMU中再次突破开源模型极限,取得72.2分;

• 基于司南OpenCompass开源评测框架,研究团队对InternVL3进行了全面系统的评估,包括多学科推理、文档理解、多图像 / 视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及以语言为中心的基准测试。评测结果显示,InternVL3在开源多模态大模型中性能表现最优,创造了开源多模态大模型的性能新标杆,性能接近闭源模型Gemini-2.5-Pro;

• 创新提出原生多模态预训练方法,将语言和多模态学习整合于同一个预训练阶段,提升及拓展多模态能力的同时,进一步提升纯语言能力;

• 提出混合偏好优化算法以及多模态测试阶段增强,通过负监督修正模型响应分布,大幅提升模型推理能力。

 

技术报告链接:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值