马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

转载于 2025-11-18 08:58:35 发布 · 111 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247844500&idx=2&sn=545faa900c643d4e7e2d4df23b6ff962&chksm=e9eb65f6f6d3811c7a2cf2e54b75cda7755b343a604403bb2c097673ad43e5ef4c952adb8566&scene=126&sessionid=0

文章标签：

部署运行你感兴趣的模型镜像

梦晨发自凹非寺
量子位 | 公众号 QbitAI

刚刚，马斯克发布Grok 4.1，同时霸榜大模型竞技场的第一和第二。

怎么做到的？

Grok 4.1思考模式以1483的Elo分数稳居榜首，领先非xAI模型中的最高分整整31分。

Grok 4.1非思考模式以1465分拿下第二名，超越了公开排行榜上所有其他模型的完整推理模式。

之前的Grok 4在排行榜上仅排第33位。不到半年时间，xAI就实现了巨大飞跃。

在大模型竞技场新推出的专家榜和职业榜上，Grok 4.1思考模式同样霸榜。

专家榜中的题目预计只有各自领域的顶尖专家才会提出，职业榜分为八个细分：

软件和IT服务，写作、文学和语言，生命科学、物理科学和社会科学，娱乐、体育和媒体，商业、管理和财务运营，数学、法律与政府，医疗保健

Grok4.1目前只在文学榜上输给Gemini2.5，数学榜输给Claude4.5和o3，其他六个榜单均拿下第一。

不过由于模型刚发布，投票数还很少，等“Preliminary”标记消失（超过一定票数）后的成绩更有参考价值。

在非用户投票的EQ-Bench情商测试中，Grok 4.1的表现同样出色，超过刚发布不久的Kimi K2（但不是Thinking版本）。

EQ-Bench是一个由大语言模型评判的测试，评估主动情商能力、理解力、洞察力、同理心和人际交往技能。

将RLHF推向前所未有的高度

Grok 4.1原来早就暗中测试了。

从11月1日起，新版模型被逐步推送越来越多的用户，期间持续进行盲测对比评估，64.78%的用户更喜欢新版。

xAI官网给出了Grok4.1与之前版本在各个方面的回答对比。

响应情感问题：

创意写作：

xAI在技术报告中特别强调，Grok 4.1在创造性、情感性和协作性互动方面带来了显著改进。模型变得更加善于捕捉细微的意图，对话更有吸引力，个性表现更加连贯，同时完全保留了前代产品的敏锐智能和可靠性。

为了实现这些提升，团队使用了支撑Grok 4的大规模强化学习基础设施，并将其应用于优化模型的风格、个性、有用性和对齐性。他们开发的新方法让前沿智能推理模型作为奖励模型，能够自主评估和迭代响应。

xAI负责后训练的Dust Tran分享了更多细节，主要改进在强化学习上，将 RLHF推向前所未有的高度。

在过去的几个月里，我们这个由十几人组成的团队利用用户在真实对话中的偏好，以及基于强大推理能力进行评分的智能体奖励模型，对强化学习 (RL) 的算法进行了全面改进.

此外，我们还将RL的规模扩大了一个数量级，远超Grok 4中现有的类似预训练的规模。

Grok 4.1对不需要思维链推理的快速回复模式做了特别加强。关闭推理功能后，输出标记数从约2300个减少到850个。

此外Grok 4.1还重点改善了幻觉问题。

配备搜索工具的非推理模型可以快速给出答案，但由于推理深度受限和工具调用预算有限，很容易出现事实错误。

在Grok 4.1的后训练阶段，专注于减少信息检索提示中出现的事实性幻觉。随后观察到，对于抽样生成的信息检索提示，幻觉发生率显著降低。

在包含500个个人传记问题的FActScore测试中，Grok 4.1非推理模式的成绩也比前一代有明显改善。

在更多示例中，Grok 4.1还展示出可以输出图文并茂的回答。

目前，Grok 4.1已经在grok.com、X平台以及iOS和Android应用上向所有用户开放，默认以自动模式推出，用户也可以在模型选择器中明确选择Grok 4.1。

参考链接：
[1]https://x.ai/news/grok-4-1
[2]https://x.com/arena/status/1990530984014676155
[3]https://x.com/dustinvtran/status/1990532663258853720

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🔊 聊AI，当然得来量子位MEET2026智能未来大会！

张亚勤、孙茂松等首波AI行业重磅嘉宾已确认出席，还有更多嘉宾即将揭晓 👉 了解详情

📍 12月10日
📍 北京金茂万丽酒店
一键报名线下参会，期待与你共论AI行业破局之道

🌟 点亮星标 🌟

科技前沿进展每日见

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型，用户只需输入视频和文字，就能为视频匹配电影级音效

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。