当地时间11月18日,谷歌发布迄今最强AI模型Gemini 3,CEO皮查伊称其“最智能”。发布即深度接入谷歌搜索的“闪电落地”速度, AI竞赛从实验室跑分转向商业化实战。其3大核心优势:
1. 博士级推理与多模态能力双冠
Gemini 3 Pro在LMArena以1501 Elo登顶,人类最后考试(HLE)裸考37.5%,GPQA Diamond测试91.9%,拓扑学难题可自动给出三种解法。多模态领域Video-MMMU测试87.6%,处理720p视频延迟不足300毫秒,能将手写食谱、论文转化为交互式材料。
2. 编程与智能体效率革新
WebDev Arena以1487 Elo夺冠,SWE-bench Verified测试76.2%,响应速度较GPT-5快40%,可生成3D游戏等复杂应用。搭配Antigravity平台,能自主完成邮件整理等任务,72小时决策一致性达95%,解决“任务漂移”问题。
3. 大语境与商业化落地能力升级
100万token上下文窗口可处理300页书籍或1小时视频,量子计算问题零样本回答质量超80%人类专家。医疗、法律等12项测试中9项领先竞品15个百分点,6.5亿月活应用及20亿用户的AI Overviews已完成更新。
安全性能同步提升,经谷歌AI史上最全面评估,防注入、抗攻击表现更优。高阶Deep Think模式HLE得分41%,GPQA Diamond达93.8%,进一步强化复杂问题解决能力。
GPT-5强化版已在测试。Gemini 3以“推理+效率+落地”优势指明方向:胜负关键在实际价值。对比竞品,其37.5%的HLE得分远超GPT-5.1的26.5%,95%的裸考准确率高于Claude 4.5的87%,仅软件工程测试略逊于Claude的77.2%。
6万+

被折叠的 条评论
为什么被折叠?



