被1977年的游戏机“血虐”90分钟？ChatGPT玩Atari象棋游戏，结果新手模式下都惨败

整理 | 郑丽媛

出品 | 优快云（ID：优快云news）

“今天你玩 Atari 了吗？ChatGPT 可能现在只想假装从没听说过这个名字。”——这是 Citrix 架构专家 Robert Jr. Caruso 在一篇 LinkedIn 帖文中的最后一句话。

故事的开头源于一个简单想法：拿最新的 AI 模型 GPT-4o 去对战 1979 年在 Atari 2600 家用游戏机上发布的一款象棋游戏 Video Chess，看看谁更强。而结局就如同开头所说：ChatGPT 被“复古 8 位游戏机”彻底打懵，在新手难度下都连败不止，最终只能“低头认输”。

AI 产品爆发，但你的痛点解决了吗？8.15-16 北京威斯汀·全球产品经理大会 PM-Summit，3000+ AI 产品人社群已就位。

直面 AI 落地难题、拆解头部案例、对接精准资源！

扫码登记信息，添加小助手进群，抢占 AI 产品下一波红利：

进群后，您将有机会得到：
· 最新、最值得关注的 AI 产品资讯及大咖洞见
· 独家视频及文章解读 AGI 时代的产品方法论及实战经验
· 不定期赠送 AI 产品干货资料和秘籍

一场看似轻松的对局，变成了 ChatGPT 的“翻车现场”

上周末，Caruso 在家中用 Stella 模拟器运行 Atari 2600 游戏机（1977年发布）上的经典游戏 Video Chess，并邀请基于 GPT-4o 的 ChatGPT 来对战。

相较于 ChatGPT，Video Chess 这款象棋游戏引擎几乎不能称为“智能”。它运行在 1.19 MHz 的 MOS 6507 处理器上，最多只能预测一到两步棋，思考能力堪比人类初学者。

但出人意料的是：ChatGPT 在新手难度下居然连连败北，失误不断。在LinkedIn 帖文中，Caruso 指出 ChatGPT 表现之差，堪称“会被小学三年级象棋社小孩围观嘲笑的水平”。

起初，为了避免 ChatGPT “认不出棋子”，Caruso 特地给它提供了标准的棋盘布局图，帮助它识别棋子。可即便如此，ChatGPT 还是把车当成象、漏掉了兵的夹击，还一再搞不清棋子的具体位置。甚至刚开始输的时候，ChatGPT 还把自己的失利归咎于 Atari 棋子图标“太抽象、不好识别”，可后来换成标准棋谱之后，它的表现也没好到哪里去。

更“抓马”的是：在整场 90 分钟的对局过程中，Caruso 不得不频繁纠正 ChatGPT 的失误行为：“别走这步”、“你刚才的棋子已经被吃了”；而 ChatGPT 则反复表示：“我们从头再来一次，我一定能表现得更好。”

但最终，它也不得不承认自己无力翻盘，只能承认失败，低下了“AI 高傲的头”。

从“深蓝”到 ChatGPT：AI 与象棋的不解之缘

事实上，把象棋作为 AI 能力的测试标准，这并非新鲜做法。

象棋是一种规则明确、状态空间庞大、对策略和计算要求极高的游戏，非常适合作为衡量算法性能与推理能力的标尺。因此在 AI 的发展历史中，象棋一直是一个颇有象征意义的试金石。

其中，最为人熟知的历史时刻，莫过于 1997 年 IBM 的超级计算机“深蓝（Deep Blue）”以 2 胜 1 负 3 平的成绩，战胜了当时世界排名第一的国际象棋大师卡斯帕罗夫。而这场胜利也标志着 AI 第一次在复杂战略博弈上压倒人类，从而开启了计算智能走向实战化的新时代。

然而到了 2025 年，“深蓝” 11.4 GFLOPS 的性能已远不如今天任何一款入门级处理器。按理说，如今 GPT-4o 这类大型语言模型在面对几十年前的低配游戏时，应该是“降维打击”——毕竟，如果让人猜一个近半世纪前的 8 位游戏机能否击败当前最先进的 AI 模型，大多数人的答案恐怕都会是“不可能”。

但显然，AI 也有“盲区”。

为什么 ChatGPT 会输？语言模型≠棋力引擎

得知这样的结果，不少人提出疑问：一个能写代码、能写诗、能答题、甚至能分析人类心理的 AI，怎么会在一款低难度象棋游戏中频频出错？

关键在于：ChatGPT 并不是专门为下棋而训练的引擎，它是通用型的语言模型。

简单来说，ChatGPT 的核心能力在于“预测下一个词”，它通过庞大的语料训练来建立语言、逻辑和常识之间的关联。虽然它也可以在文本环境下模拟一些游戏过程（包括象棋、围棋等），但并不具备专门用于游戏决策的搜索算法、博弈策略或状态树评估能力。

相比之下，即使 Video Chess 是 1979 年发布的游戏，也内置了最基础的穷举搜索和位置打分逻辑——尽管十分简单，但它至少知道“怎么在棋盘上活下去”。

这也是为什么许多专业象棋软件在围棋、象棋等领域表现远超通用 AI 模型——它们的“目标明确”，而不是像 ChatGPT一样“什么都能做一点，但什么都不专精”。从这个角度来看，ChatGPT 在 Atari 象棋游戏中的失败，也并非表示“AI 不行”，而是提醒我们：AI 不是全能，它的表现高度依赖于任务适配性和输入清晰度。

📢 2025 全球产品经理大会

8 月 15–16 日

北京·威斯汀酒店

2025 全球产品经理大会将汇聚互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人，围绕产品设计、用户体验、增长运营、智能落地等核心议题，展开 12 大专题分享，洞察趋势、拆解路径、对话未来。

更多详情与报名，请扫码下方二维码。