如果让AI模型在Minecraft中进行一场建造对决,谁会赢?
最近,一个由12年级学生创建的网站 MC-Bench,让AI在像素世界里“动手”建造,并由用户投票选出优胜者。这不仅是一场趣味性十足的挑战,也正在成为评估生成式AI能力的新方式。
传统AI测试不够用了?来点新花样!
AI的发展速度惊人,但如何准确衡量AI模型的能力,却一直是个难题。传统的AI基准测试往往只涉及文本或代码,而AI在真实世界中的表现却远比这些测试复杂得多。因此,开发者们开始寻找新的方式来评估AI,比如——让AI在游戏里比拼!
MC-Bench 选择了全球最畅销的游戏 Minecraft 作为AI竞技场,因为它的玩法直观、规则简单,而且大家都熟悉。即使是没玩过Minecraft的人,也能一眼看出哪个作品更好。
“Minecraft让人们更容易看到AI的发展进步,大家熟悉它的风格和氛围。”
——MC-Bench创始人 阿迪·辛格(Adi Singh)
AI如何在Minecraft里“造房子”?
MC-Bench 的运行方式很简单:AI模型根据提示(如“建造一个雪人”或“搭建一个热带海滩小屋”),生成Minecraft建造作品。用户在不知情的情况下投票选择他们认为更优秀的作品,投票结束后才会揭晓是哪款AI创作的。
目前,该项目已经获得了 Anthropic、Google、OpenAI 和阿里巴巴 等公司的技术支持,但这些企业并未直接参与开发,所有代码和维护工作都由志愿者完成。
AI基准测试为何越来越“游戏化”?
除了Minecraft,其他游戏如 《精灵宝可梦:红》、《街头霸王》、《你画我猜》 也被用于AI测试。原因在于,AI在传统基准测试中可能表现出色,但这些测试往往对AI过于“友好”。
举个例子,OpenAI的GPT-4在 LSAT(美国法学院入学考试) 中能考到 88% 的分位数,但却无法准确判断“strawberry”这个单词里有多少个“R”。而Anthropic的Claude 3.7 Sonnet在标准化的软件工程测试中获得 62.3% 的准确率,但玩《精灵宝可梦》甚至不如一个五岁小孩。
所以,让AI在游戏里展示“真实能力”,可能比单纯的标准化测试更有意义。
这个测试真的有用吗?
MC-Bench 虽然本质上也是一种 编程基准测试,但它的优势在于:结果更直观,评判更简单。与其让用户分析AI生成的代码,不如让大家直接看 哪个作品更漂亮,这无疑能吸引更多人参与测试,并收集到更多数据。
尽管目前AI的Minecraft建造能力还远远比不上人类,但这类测试可能会成为未来AI能力评估的一部分。正如辛格所说:
“当前的排行榜与我个人使用这些AI模型的体验非常吻合,这与许多纯文本基准测试不同。”
也许未来,大型科技公司也会开始关注这类 游戏化AI测试,用更直观的方式来评估AI的进步方向。