梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
刚刚,马斯克发布Grok 4.1,同时霸榜大模型竞技场的第一和第二。
怎么做到的?

Grok 4.1思考模式以1483的Elo分数稳居榜首,领先非xAI模型中的最高分整整31分。
Grok 4.1非思考模式以1465分拿下第二名,超越了公开排行榜上所有其他模型的完整推理模式。

之前的Grok 4在排行榜上仅排第33位。不到半年时间,xAI就实现了巨大飞跃。
在大模型竞技场新推出的专家榜和职业榜上,Grok 4.1思考模式同样霸榜。

专家榜中的题目预计只有各自领域的顶尖专家才会提出,职业榜分为八个细分:
软件和IT服务,写作、文学和语言,生命科学、物理科学和社会科学,娱乐、体育和媒体,商业、管理和财务运营,数学、法律与政府,医疗保健
Grok4.1目前只在文学榜上输给Gemini2.5,数学榜输给Claude4.5和o3,其他六个榜单均拿下第一。

不过由于模型刚发布,投票数还很少,等“Preliminary”标记消失(超过一定票数)后的成绩更有参考价值。
在非用户投票的EQ-Bench情商测试中,Grok 4.1的表现同样出色,超过刚发布不久的Kimi K2(但不是Thinking版本)。
EQ-Bench是一个由大语言模型评判的测试,评估主动情商能力、理解力、洞察力、同理心和人际交往技能。

将RLHF推向前所未有的高度
Grok 4.1原来早就暗中测试了。
从11月1日起,新版模型被逐步推送越来越多的用户,期间持续进行盲测对比评估,64.78%的用户更喜欢新版。

xAI官网给出了Grok4.1与之前版本在各个方面的回答对比。
响应情感问题:

创意写作:

xAI在技术报告中特别强调,Grok 4.1在创造性、情感性和协作性互动方面带来了显著改进。模型变得更加善于捕捉细微的意图,对话更有吸引力,个性表现更加连贯,同时完全保留了前代产品的敏锐智能和可靠性。
为了实现这些提升,团队使用了支撑Grok 4的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、有用性和对齐性。他们开发的新方法让前沿智能推理模型作为奖励模型,能够自主评估和迭代响应。
xAI负责后训练的Dust Tran分享了更多细节,主要改进在强化学习上,将 RLHF推向前所未有的高度。
在过去的几个月里,我们这个由十几人组成的团队利用用户在真实对话中的偏好,以及基于强大推理能力进行评分的智能体奖励模型,对强化学习 (RL) 的算法进行了全面改进.
此外,我们还将RL的规模扩大了一个数量级,远超Grok 4中现有的类似预训练的规模。
Grok 4.1对不需要思维链推理的快速回复模式做了特别加强。关闭推理功能后,输出标记数从约2300个减少到850个。
此外Grok 4.1还重点改善了幻觉问题。
配备搜索工具的非推理模型可以快速给出答案,但由于推理深度受限和工具调用预算有限,很容易出现事实错误。
在Grok 4.1的后训练阶段,专注于减少信息检索提示中出现的事实性幻觉。随后观察到,对于抽样生成的信息检索提示,幻觉发生率显著降低。
在包含500个个人传记问题的FActScore测试中,Grok 4.1非推理模式的成绩也比前一代有明显改善。

在更多示例中,Grok 4.1还展示出可以输出图文并茂的回答。

目前,Grok 4.1已经在grok.com、X平台以及iOS和Android应用上向所有用户开放,默认以自动模式推出,用户也可以在模型选择器中明确选择Grok 4.1。
参考链接:
[1]https://x.ai/news/grok-4-1
[2]https://x.com/arena/status/1990530984014676155
[3]https://x.com/dustinvtran/status/1990532663258853720
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🔊 聊AI,当然得来量子位MEET2026智能未来大会!
张亚勤、孙茂松等首波AI行业重磅嘉宾已确认出席,还有更多嘉宾即将揭晓 👉 了解详情
📍 12月10日
📍 北京金茂万丽酒店
一键报名线下参会,期待与你共论AI行业破局之道 

🌟 点亮星标 🌟
科技前沿进展每日见
38

被折叠的 条评论
为什么被折叠?



