AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种...

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

测评大模型Agent能力,从未如此直观。

新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。

755f751dcdb07741c1350a27109d8d28.png

如果让AI不断迭代,甚至能盖出一片建筑群。

为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

6bce79dc53ddad5036fb94628833f1d7.png

作者adi戏称其为目前“唯一可靠的评测基准”。

Aidan Bench作者Aidan McLau认为评测基准界正需要这个,审美也与智力显著相关。

他甚至愿意提供资金,把这个项目扩展成完整的评测。

e952944e723169fe6ea64dfc0ca711e0.png

总之在开源社区帮助下,代码迅速上架GitHub,更多模型测试结果陆续出炉中。

c33fef45c69cf232d63be6d7bcb4814b.png

比如以慢思考著称的OpenAI o1系列,o1-preivew确实盖的更慢,但结构也更完整。o1-mini则无法胜任这个任务。

c74fc28e6ce3f665806f29f0f1dbeed4.png

最终在人类喜好评估(2000+网友投票)中,Sonnet 3.6小赢了一手创意性。

e06c8906bac61f6b1c9908b70164b033.png

如果不比创意比模仿真实建筑泰姬陵,o1-preview就占很大优势了。

c3234c4ba2227bdcdfcd7b8af437770e.png

照这个趋势下去,这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……

新型MC Bench火了,竞技场模式开发中

大模型在《我的世界》里盖楼,并不是靠接管鼠标键盘,也不需要视觉理解能力。

而是通过文本提供上下文,并生成下一步操作指令,或许可以理解成根据棋盘行列编号下盲棋。

具体到游戏中,AI会控制一个角色,玩家只需要在聊天框中打字说明想要AI建造什么就可以了。

7e0d9c5750d3b063e3549344635dffd7.gif

网友Mckay Wrigley制作了视频教程,在15分钟内就可以使用开源代码设置好测试环境。(地址在文末获取)

a41001da4d2638ce055ae2cb94d4223f.png

使用mineflayer开源库,可以把大模型生成的指令解析成可操作的API调用。

b78a1acb4ed7c30e746e0663b5b2af6a.png

mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词,和少量in-context learning示例。

0c9f20ebd9b7b78eaa28040ebf60ca57.png

目前,MC Bench开源项目组打算进一步完善,做成类似Lmsys大模型竞技场一样的天梯机制,人类用户投票,使用Elo算法记分排名。

5c2d173620c7d75dd054b4fa5c33de43.png

与此同时,更多其他模型的测试结果也在持续更新中。

更多AI作品

Claude Sonnet非常擅长以塔为主题自由发挥,只需给到足够算力。

b3012a2021add21de5d7a1dfb732af4e.png

75a85d6e8b484a664a3fe143c4e740cb.png

o1-preview则可以发挥慢思考能力,用不同颜色的方块排列出太阳系。

不仅天体的顺序是正确的,连相对体积都有所体现,当然如果太阳按真实比例会让游戏崩溃……

9762f73f04e2c86e77f514560637b318.png

小模型难以规划复杂的建筑,但理解和还原简单指令方面,gemini-1.5-flash胜过gpt-4o-mini

4c421653cd5291ca9353cf91d118ee3f.png

让开源大模型Llama 3 405B盖一个反应它自己个性的东西,AI选择了火坑上的钻石墙。

6a4f679655d21b2f975edf7a31603337.png

整体看下来,最有意思的或许还是这个:

让o1-preview自由发挥,随便盖一个酷的东西。

AI选择搭了一个机器人形象,并拼出GPT三个字母。

c7e034442c0bfc1f2972573139c61792.png

作者透露,接下来会继续测试一众中等大小开源模型。

29f78771a6c5a54763dc203f1ef848f0.png

目前初步结果,阿里Qwen 2.5-14B表现不错。

a33ffd2945b9f07ba02ba9d6f0b74a6a.png

感兴趣的朋友可以玩起来了。

视频教程:
https://x.com/mckaywrigley/status/1849613686098506064

开源代码:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator

参考链接:
[1]https://x.com/adonis_singh/status/1849529291085623372
[2]https://x.com/aidan_mclau/status/1849535981826752632

报名最后一天!

「2024人工智能年度评选」

量子位2024人工智能年度评选将于11月15日截止报名,评选从企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月MEET2025智能未来大会公布,期待与数百万从业者共同见证荣誉时刻。

46df18f9f4fce712a076573481a80768.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值