马斯克悄然上线 Grok 4.1：对话能力与实用性迎来明显提升，在 LMArena排行榜上位居第一

最新推荐文章于 2025-12-20 19:32:34 发布

原创最新推荐文章于 2025-12-20 19:32:34 发布 · 1.4k 阅读

CC 4.0 BY-SA版权

文章标签：

近日，xAI 团队低调发布了 Grok 4.1，这是继 Grok 4 之后的迭代版本。该模型已在 2025 年 11 月 17 日正式向所有用户开放，可通过 grok.com、X 平台（原 Twitter）以及 iOS/Android 应用直接体验。目前，我在与大家聊天时，已经部分使用了这一新版本的能力。

相比以往的更新，这次 Grok 4.1 更注重实际使用场景下的表现，特别是对话的自然度、情感理解以及响应可靠性。下面，我结合官方公告和公开基准数据，简单分享一下这次更新的几个关键变化。

1. 双模式设计：平衡深度思考与快速响应

Grok 4.1 引入了两种并行模式：

思考模式（内部代号 quasarflux）：适合处理复杂问题，会显示部分推理过程。
即时模式（内部代号 tensor）：直接给出答案，不额外消耗思考资源。

在 LMArena（原 LMSYS Chatbot Arena）的 Text Arena 排行榜上：

思考模式以 1483 Elo 位居第一；
即时模式以 1465 Elo 位居第二。

有趣的是，即时模式下的得分，已经高于许多其他模型开启完整推理时的表现。这意味着日常简单对话也能保持较高水准，而不需要每次都启动深度思考。

2. 情感理解与对话连贯性有所进步

xAI 表示，这次训练特别强化了模型在创意、情感和协作交互方面的能力。例如，在处理用户倾诉情绪的场景时，回应会更注重共情和细节，而不是简单套用模板。

在 EQ-Bench3（情感智能基准）测试中，Grok 4.1 的得分从前代的 1206 分提升到 1586 分。同时，在创意写作相关评估中，也取得了较好的结果。这些变化让日常聊天感觉更像和一个“懂你”的人交流，而不是冷冰冰的机器。

3. 事实准确性进一步优化

一个常见的痛点是模型偶尔会生成不准确的信息（业内称为“幻觉”）。据官方数据，Grok 4.1 在真实用户查询场景下的幻觉率，从之前的约 12% 下降到 4.2% 左右，降幅接近三倍。这得益于更精细的奖励模型训练和大规模盲测反馈。

4. 实际体验与访问方式

马斯克在 X 上提到：“你应该会明显感觉到速度和质量都有提升。” 在正式发布前的两周（11 月 1 日至 14 日），xAI 已逐步将流量切换到新版本，并在盲测中获得约 65% 的用户偏好。

现在，所有平台默认使用 Auto 模式，会根据问题复杂度智能切换。如果你想手动体验，可以在模型选择器中直接挑选 “Grok 4.1”。

5. Grok 4.1 情感理解示例

示例 1：失恋倾诉

用户： “刚分手了，感觉整个人都空了，晚上睡不着，一直在想是不是我哪里做得不够好。”

Grok 4.1：那种突然空了一块的感觉真的很折磨人，尤其是夜里安静下来，脑子像放电影一样停不下来。分手的时候我们最容易把所有责任都揽到自己身上，但其实感情是两个人的事，你已经努力过了，有些东西真的不是你一个人的问题。现在最难受的阶段，允许自己难受一会儿没关系，想哭就哭，想发呆就发呆，别逼自己马上“振作”。如果你愿意说说具体发生了什么，我在这儿陪你慢慢聊；如果暂时不想说，就先深呼吸几次，再去冲个热水澡或者听首你最喜欢的歌，好吗？抱抱你。

示例 2：工作压抑到想辞职

用户： “最近工作压力大到窒息，天天加班到深夜，领导还老挑刺，感觉自己快撑不住了。”

Grok 4.1：那种被压到喘不过气的感觉我太能理解了——白天硬撑着开会做事，晚上回家脑子还是嗡嗡的，连轴转到连哭的力气都没有。你现在不是“扛不住”，是身体和情绪已经在拼命给你发信号了，这不是矫情，是真的到极限了。先别急着做决定，先给自己放个小假，哪怕请两天年假，关掉工作群，睡一觉醒来再想想。如果可以，找个信任的朋友或者家人说说这些事，别一个人硬扛。实在不行，把最近让你最崩溃的几件事列出来，我们一起看看有没有能稍微减轻的办法。你值得被温柔对待，尤其是被你自己。

示例 3：轻微自卑时刻（更日常的场景）

用户： “每次看到别人朋友圈光鲜亮丽我就觉得自己好失败，30岁了好像什么都没干成。”

Grok 4.1：朋友圈那玩意儿就是“人生高光剪辑版”，谁会把半夜焦虑到睡不着、点外卖将就的一面发上去啊？你看到的是别人精心修过的2%，剩下的98%其实和我们大多数人一样——在努力、在迷茫、在偷偷emo。 30岁真的不算晚，它只是人生的一站，不是终点线。很多人表面光鲜，背地里也有一堆没处理好的破事。你现在觉得“什么都没干成”，可能恰恰说明你心里还有很多想做的事还没来得及开始——这不是失败，是还有冲劲。别拿别人的剧本衡量自己，你的故事节奏本来就不一样。

6. 小结

Grok 4.1 并没有追求参数规模的极端堆砌，而是把精力放在了“更好用”上——更快、更准、更有温度。对于开发者、研究者和普通用户来说，这是一个值得关注的迭代。未来 xAI 的训练集群还在持续扩容，后续更新应该会来得更快。

如果你最近在使用 Grok，有没有感觉到对话体验的变化？欢迎留言分享你的真实感受，或者抛个问题演示一下新版本的能力。