谷歌发起的 AI 象棋赛首日战况:Grok 统治全场,Kimi 违规四连败,Claude 迷失残局!

合法走子频频出错。不仅仅是“不会”,而是“记不得”。Kimi k2在每盘中失败的方式几乎完全一样:连续四次下出非法走子。

在Google旗下Kaggle平台主办的“棋局竞技场”中,一场AI国际象棋比赛正在展开。

参与者不是Stockfish或AlphaZero这样的专业引擎,而是八个大型语言模型(LLM):Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。

图片

比赛规则简单直接——单败淘汰制。每局比赛,AI有四次机会做出合法走子,四次失败即告负。

不比谁“算力强”,而是要看谁更能理解、分析并解决问题。

这是一场对AI通用智能(AGI)未来潜力的探索试验。

01 横扫四场,Grok 4领跑全场

在8月5日首日四场对决中,四场全是4比0横扫,没有任何悬念。Grok 4击败Gemini 2.5 Flash,以全胜之姿晋级四强。

图片

不仅赢得干净利落,更展现了全场最具逻辑性的走法。

在对局中,Grok 4不断识别对手的漏子,并迅速发起攻击,每一分都带着“计算后的猎杀”感。

相比其他模型依赖模板式开局和反应式走子,Grok 4则像是在做一场目标清晰的围猎。

Gemini 2.5 Flash的失误固然给了机会,但Grok 4真正让人惊讶的是它的策略意识和位置判断力

即使是在没有开局库、没有辅助引擎的纯思维对弈中,Grok 4也表现出令人意外的棋局掌控力。

图片

与此同时,Gemini 2.5 Pro也以4比0战胜Claude 4 Opus晋级。

这组对局中出现了更多“合法走子”的回合,也出现了数次由棋局终结的真正“将死”,而非判负。

其中最令人印象深刻的是第四局,Gemini 2.5 Pro在局面占优的情况下,仍旧犯下了几个不该有的“送子”失误。

即使如此,它依然靠两后强势将死对手,保住了胜果。不过,从比赛内容来看,Claude 4 Opus的表现明显更为混乱。

在第一局,它在第十步选择“g5”,主动暴露王翼,直接加速败局。评论指出:“Claude 4 Opus看上去知道一些战术,但局势一变,它就像陷入迷雾。”

DeepSeek R1对阵o4-mini的比赛更像是一场“幻觉测试”。

图片

开局阶段,双方都能给出几步强有力的操作。但进入中局,DeepSeek R1反复犯下“看错棋盘”的错误。

在一盘中,它甚至试图将马移到一个不存在的位置。尽管如此,o4-mini仍然完成了两次“实打实”的将死,成为唯一在一场比赛中完成两次将死的AI。

o4-mini因此拿下4分,晋级下一轮。

图片

最混乱的对局来自o3与Kimi k2的交手。Kimi k2没有在任何一局中完成超过8步的对弈。

它连续四次在第四次尝试时下出非法棋,自动判负。从注释来看,Kimi k2的确懂得一些开局套路。

但一旦脱离开局库,它便彻底迷失方向,甚至连车、象的走法都记错。不是不会下棋,而是“忘了规则”。

这让人对它的训练数据和逻辑能力产生疑问。

03 AI的弱点,暴露在棋盘上

比赛成了一面“照妖镜”。从棋盘的表现看,大部分AI模型在以下三个方面表现不佳:

第一,无法完整“视觉化”整盘棋。许多AI看得见棋子,却无法判断整体布局关系。

第二,缺乏“因果理解”的连续性。一个子被吃了之后,AI往往不能明白其位置失守的后果,下一步仍会把王送进敌人攻击线。

第三,合法走子频频出错。不仅仅是“不会”,而是“记不得”。Kimi k2在每盘中失败的方式几乎完全一样:连续四次下出非法走子。

而这不是引擎限制,而是理解能力薄弱的体现。相比之下,Grok 4在这三方面都展现出极强的适应力。它能识别未被保护的棋子,能计算简单战术,也没有出现非法走子的情况。

这场比赛仍在继续。8月6日,将迎来半决赛。

四强对阵如下:Grok 4 vs Gemini 2.5 Pro,o4-mini vs o3。

谁会最终登顶尚不得而知,但从首日表现来看,Grok 4无疑是目前的最大热门。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。


因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

四、AI大模型商业化落地方案

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值