断层式领先!Gemini 3.0全方位评测新鲜出炉

近期,谷歌发布了新一代大模型Gemini 3.0,被视为谷歌重回AI第一阵营的关键里程碑。司南OpenCompass在第一时间对Gemini 3.0进行了全方位的能力评测(评测版本号Gemini-3-Pro-Preview)。

评测结果显示,其在通用任务和专业学科任务上、单模态场景和多模态场景上均展现出断层式领先。这一结果不仅验证了技术架构的颠覆性升级,更预示着AI产业的竞争焦点,已从单一模型的性能比拼,全面转向以原生多模态、深度推理和生态整合为核心的综合实力较量。

司南OpenCompass对Gemini-3-Pro-Preview的通用文本能力、学科专业文本能力、通用多模态能力、学科专业多模态能力进行了评测,具体结果如下图所示。

图片

图片

图片

图片

根据以上结果可以发现,相较于业内现有的顶尖商用模型及社区开源模型,Gemini-3-Pro-Preview在通专多维能力上展现出了全方位的领先。

通用基准方面,Gemini-3-Pro-Preview在MMLU-Pro、GPQA-Diamond、MathVision、MMStar等多个基准上的表现显著领先其他模型,展现出了超越现有标杆的通用认知与推理能力。

学科专业基准方面,此模型同样在ChemBench、SFE、MicroVQA等基准上取得了极高的分数,展现出了将强大通用能力精准灌注到学科专业垂直领域的卓越应用潜力和科研潜力。

综上所述,Gemini 3.0的全面领先态势揭示了一个关键趋势:大模型的竞争重心,正转向构建更深层、更可靠、更能无缝融入并赋能复杂真实任务的全方位技术体系。Gemini 3.0在多项基准上实现的突破也意味着大模型综合能力的一次拓展,预示着人工智能在参与未来科学探索、工程实践与创造性工作等方面,正逐步展现出更为实质性的应用潜力。

更多详细内容,请参考后续的官网榜单更新:https://rank.opencompass.org.cn/home


司南 Daily Benchmark 专区全新上新!

  • AI 评测论文“追更神器”

  • 每日更新最新 AI 评测方向论文

  • 每篇论文都支持 AI 智能解读

查看更多最新 AI 评测论文,欢迎访问:

https://hub.opencompass.org.cn/daily-benchmark-list

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值