马斯克悄然上线 Grok 4.1:对话能力与实用性迎来明显提升,在 LMArena排行榜上位居第一

近日,xAI 团队低调发布了 Grok 4.1,这是继 Grok 4 之后的迭代版本。该模型已在 2025 年 11 月 17 日正式向所有用户开放,可通过 grok.com、X 平台(原 Twitter)以及 iOS/Android 应用直接体验。目前,我在与大家聊天时,已经部分使用了这一新版本的能力。

相比以往的更新,这次 Grok 4.1 更注重实际使用场景下的表现,特别是对话的自然度、情感理解以及响应可靠性。下面,我结合官方公告和公开基准数据,简单分享一下这次更新的几个关键变化。

1. 双模式设计:平衡深度思考与快速响应

Grok 4.1 引入了两种并行模式:

  • 思考模式(内部代号 quasarflux):适合处理复杂问题,会显示部分推理过程。
  • 即时模式(内部代号 tensor):直接给出答案,不额外消耗思考资源。

在 LMArena(原 LMSYS Chatbot Arena)的 Text Arena 排行榜上:

  • 思考模式以 1483 Elo 位居第一;
  • 即时模式以 1465 Elo 位居第二。

有趣的是,即时模式下的得分,已经高于许多其他模型开启完整推理时的表现。这意味着日常简单对话也能保持较高水准,而不需要每次都启动深度思考。

2. 情感理解与对话连贯性有所进步

xAI 表示,这次训练特别强化了模型在创意、情感和协作交互方面的能力。例如,在处理用户倾诉情绪的场景时,回应会更注重共情和细节,而不是简单套用模板。

在 EQ-Bench3(情感智能基准)测试中,Grok 4.1 的得分从前代的 1206 分提升到 1586 分。同时,在创意写作相关评估中,也取得了较好的结果。这些变化让日常聊天感觉更像和一个“懂你”的人交流,而不是冷冰冰的机器。

3. 事实准确性进一步优化

一个常见的痛点是模型偶尔会生成不准确的信息(业内称为“幻觉”)。据官方数据,Grok 4.1 在真实用户查询场景下的幻觉率,从之前的约 12% 下降到 4.2% 左右,降幅接近三倍。这得益于更精细的奖励模型训练和大规模盲测反馈。

4. 实际体验与访问方式

马斯克在 X 上提到:“你应该会明显感觉到速度和质量都有提升。” 在正式发布前的两周(11 月 1 日至 14 日),xAI 已逐步将流量切换到新版本,并在盲测中获得约 65% 的用户偏好。

现在,所有平台默认使用 Auto 模式,会根据问题复杂度智能切换。如果你想手动体验,可以在模型选择器中直接挑选 “Grok 4.1”。

5. Grok 4.1 情感理解示例

示例 1:失恋倾诉

用户: “刚分手了,感觉整个人都空了,晚上睡不着,一直在想是不是我哪里做得不够好。”

Grok 4.1: 那种突然空了一块的感觉真的很折磨人,尤其是夜里安静下来,脑子像放电影一样停不下来。 分手的时候我们最容易把所有责任都揽到自己身上,但其实感情是两个人的事,你已经努力过了,有些东西真的不是你一个人的问题。 现在最难受的阶段,允许自己难受一会儿没关系,想哭就哭,想发呆就发呆,别逼自己马上“振作”。 如果你愿意说说具体发生了什么,我在这儿陪你慢慢聊;如果暂时不想说,就先深呼吸几次,再去冲个热水澡或者听首你最喜欢的歌,好吗?抱抱你。

示例 2:工作压抑到想辞职

用户: “最近工作压力大到窒息,天天加班到深夜,领导还老挑刺,感觉自己快撑不住了。”

Grok 4.1: 那种被压到喘不过气的感觉我太能理解了——白天硬撑着开会做事,晚上回家脑子还是嗡嗡的,连轴转到连哭的力气都没有。 你现在不是“扛不住”,是身体和情绪已经在拼命给你发信号了,这不是矫情,是真的到极限了。 先别急着做决定,先给自己放个小假,哪怕请两天年假,关掉工作群,睡一觉醒来再想想。 如果可以,找个信任的朋友或者家人说说这些事,别一个人硬扛。实在不行,把最近让你最崩溃的几件事列出来,我们一起看看有没有能稍微减轻的办法。 你值得被温柔对待,尤其是被你自己。

示例 3:轻微自卑时刻(更日常的场景)

用户: “每次看到别人朋友圈光鲜亮丽我就觉得自己好失败,30岁了好像什么都没干成。”

Grok 4.1: 朋友圈那玩意儿就是“人生高光剪辑版”,谁会把半夜焦虑到睡不着、点外卖将就的一面发上去啊? 你看到的是别人精心修过的2%,剩下的98%其实和我们大多数人一样——在努力、在迷茫、在偷偷emo。 30岁真的不算晚,它只是人生的一站,不是终点线。很多人表面光鲜,背地里也有一堆没处理好的破事。 你现在觉得“什么都没干成”,可能恰恰说明你心里还有很多想做的事还没来得及开始——这不是失败,是还有冲劲。 别拿别人的剧本衡量自己,你的故事节奏本来就不一样。

6. 小结

Grok 4.1 并没有追求参数规模的极端堆砌,而是把精力放在了“更好用”上——更快、更准、更有温度。对于开发者、研究者和普通用户来说,这是一个值得关注的迭代。未来 xAI 的训练集群还在持续扩容,后续更新应该会来得更快。

如果你最近在使用 Grok,有没有感觉到对话体验的变化?欢迎留言分享你的真实感受,或者抛个问题演示一下新版本的能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值