AI 版“我的世界”对决！看看哪款 AI 造房更强？-优快云博客

本文链接：https://blog.youkuaiyun.com/YvetW/article/details/146429662

如果让AI模型在Minecraft中进行一场建造对决，谁会赢？

最近，一个由12年级学生创建的网站 MC-Bench，让AI在像素世界里“动手”建造，并由用户投票选出优胜者。这不仅是一场趣味性十足的挑战，也正在成为评估生成式AI能力的新方式。

在这里插入图片描述

传统AI测试不够用了？来点新花样！

AI的发展速度惊人，但如何准确衡量AI模型的能力，却一直是个难题。传统的AI基准测试往往只涉及文本或代码，而AI在真实世界中的表现却远比这些测试复杂得多。因此，开发者们开始寻找新的方式来评估AI，比如——让AI在游戏里比拼！

MC-Bench 选择了全球最畅销的游戏 Minecraft 作为AI竞技场，因为它的玩法直观、规则简单，而且大家都熟悉。即使是没玩过Minecraft的人，也能一眼看出哪个作品更好。

“Minecraft让人们更容易看到AI的发展进步，大家熟悉它的风格和氛围。”
——MC-Bench创始人阿迪·辛格（Adi Singh）

在这里插入图片描述

AI如何在Minecraft里“造房子”？

MC-Bench 的运行方式很简单：AI模型根据提示（如“建造一个雪人”或“搭建一个热带海滩小屋”），生成Minecraft建造作品。用户在不知情的情况下投票选择他们认为更优秀的作品，投票结束后才会揭晓是哪款AI创作的。

目前，该项目已经获得了 Anthropic、Google、OpenAI 和阿里巴巴 等公司的技术支持，但这些企业并未直接参与开发，所有代码和维护工作都由志愿者完成。

AI基准测试为何越来越“游戏化”？

除了Minecraft，其他游戏如 《精灵宝可梦：红》、《街头霸王》、《你画我猜》 也被用于AI测试。原因在于，AI在传统基准测试中可能表现出色，但这些测试往往对AI过于“友好”。

举个例子，OpenAI的GPT-4在 LSAT（美国法学院入学考试） 中能考到 88% 的分位数，但却无法准确判断“strawberry”这个单词里有多少个“R”。而Anthropic的Claude 3.7 Sonnet在标准化的软件工程测试中获得 62.3% 的准确率，但玩《精灵宝可梦》甚至不如一个五岁小孩。

所以，让AI在游戏里展示“真实能力”，可能比单纯的标准化测试更有意义。