AI 版“我的世界”对决!看看哪款 AI 造房更强?

如果让AI模型在Minecraft中进行一场建造对决,谁会赢?

最近,一个由12年级学生创建的网站 MC-Bench,让AI在像素世界里“动手”建造,并由用户投票选出优胜者。这不仅是一场趣味性十足的挑战,也正在成为评估生成式AI能力的新方式。

在这里插入图片描述

传统AI测试不够用了?来点新花样!

AI的发展速度惊人,但如何准确衡量AI模型的能力,却一直是个难题。传统的AI基准测试往往只涉及文本或代码,而AI在真实世界中的表现却远比这些测试复杂得多。因此,开发者们开始寻找新的方式来评估AI,比如——让AI在游戏里比拼!

MC-Bench 选择了全球最畅销的游戏 Minecraft 作为AI竞技场,因为它的玩法直观、规则简单,而且大家都熟悉。即使是没玩过Minecraft的人,也能一眼看出哪个作品更好。

“Minecraft让人们更容易看到AI的发展进步,大家熟悉它的风格和氛围。”
——MC-Bench创始人 阿迪·辛格(Adi Singh)

在这里插入图片描述

AI如何在Minecraft里“造房子”?

MC-Bench 的运行方式很简单:AI模型根据提示(如“建造一个雪人”或“搭建一个热带海滩小屋”),生成Minecraft建造作品。用户在不知情的情况下投票选择他们认为更优秀的作品,投票结束后才会揭晓是哪款AI创作的。

目前,该项目已经获得了 Anthropic、Google、OpenAI 和阿里巴巴 等公司的技术支持,但这些企业并未直接参与开发,所有代码和维护工作都由志愿者完成。

AI基准测试为何越来越“游戏化”?

除了Minecraft,其他游戏如 《精灵宝可梦:红》《街头霸王》《你画我猜》 也被用于AI测试。原因在于,AI在传统基准测试中可能表现出色,但这些测试往往对AI过于“友好”。

举个例子,OpenAI的GPT-4在 LSAT(美国法学院入学考试) 中能考到 88% 的分位数,但却无法准确判断“strawberry”这个单词里有多少个“R”。而Anthropic的Claude 3.7 Sonnet在标准化的软件工程测试中获得 62.3% 的准确率,但玩《精灵宝可梦》甚至不如一个五岁小孩。

所以,让AI在游戏里展示“真实能力”,可能比单纯的标准化测试更有意义。

这个测试真的有用吗?

MC-Bench 虽然本质上也是一种 编程基准测试,但它的优势在于:结果更直观,评判更简单。与其让用户分析AI生成的代码,不如让大家直接看 哪个作品更漂亮,这无疑能吸引更多人参与测试,并收集到更多数据。

尽管目前AI的Minecraft建造能力还远远比不上人类,但这类测试可能会成为未来AI能力评估的一部分。正如辛格所说:

“当前的排行榜与我个人使用这些AI模型的体验非常吻合,这与许多纯文本基准测试不同。”

也许未来,大型科技公司也会开始关注这类 游戏化AI测试,用更直观的方式来评估AI的进步方向。


AI 正面对决!高中生打造网站,让AI在 Minecraft 里比拼建造*

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值