AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种...

转载于 2024-11-15 12:37:08 发布 · 140 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247758449&idx=4&sn=a009f7becd2d31bcbcdccb84a0bcc856&chksm=e9ad5dc12d5df6d0ebda3e64d450576879503e6cd6b2dfcfd6376888050462401574225f1bf3&scene=126&sessionid=0

文章标签：

梦晨发自凹非寺
量子位 | 公众号 QbitAI

测评大模型Agent能力，从未如此直观。

新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼，差距不要太明显，引来大量围观。

如果让AI不断迭代，甚至能盖出一片建筑群。

为了避免Claude团队糟糕的命名方式造成混淆，下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

作者adi戏称其为目前“唯一可靠的评测基准”。

Aidan Bench作者Aidan McLau认为评测基准界正需要这个，审美也与智力显著相关。

他甚至愿意提供资金，把这个项目扩展成完整的评测。

总之在开源社区帮助下，代码迅速上架GitHub，更多模型测试结果陆续出炉中。

比如以慢思考著称的OpenAI o1系列，o1-preivew确实盖的更慢，但结构也更完整。o1-mini则无法胜任这个任务。

最终在人类喜好评估（2000+网友投票）中，Sonnet 3.6小赢了一手创意性。

如果不比创意比模仿真实建筑泰姬陵，o1-preview就占很大优势了。

照这个趋势下去，这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……

新型MC Bench火了，竞技场模式开发中

大模型在《我的世界》里盖楼，并不是靠接管鼠标键盘，也不需要视觉理解能力。

而是通过文本提供上下文，并生成下一步操作指令，或许可以理解成根据棋盘行列编号下盲棋。

具体到游戏中，AI会控制一个角色，玩家只需要在聊天框中打字说明想要AI建造什么就可以了。

网友Mckay Wrigley制作了视频教程，在15分钟内就可以使用开源代码设置好测试环境。（地址在文末获取）

使用mineflayer开源库，可以把大模型生成的指令解析成可操作的API调用。

mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词，和少量in-context learning示例。

目前，MC Bench开源项目组打算进一步完善，做成类似Lmsys大模型竞技场一样的天梯机制，人类用户投票，使用Elo算法记分排名。

与此同时，更多其他模型的测试结果也在持续更新中。

更多AI作品

Claude Sonnet非常擅长以塔为主题自由发挥，只需给到足够算力。

o1-preview则可以发挥慢思考能力，用不同颜色的方块排列出太阳系。

不仅天体的顺序是正确的，连相对体积都有所体现，当然如果太阳按真实比例会让游戏崩溃……

小模型难以规划复杂的建筑，但理解和还原简单指令方面，gemini-1.5-flash胜过gpt-4o-mini。

让开源大模型Llama 3 405B盖一个反应它自己个性的东西，AI选择了火坑上的钻石墙。

整体看下来，最有意思的或许还是这个：

让o1-preview自由发挥，随便盖一个酷的东西。

AI选择搭了一个机器人形象，并拼出GPT三个字母。

作者透露，接下来会继续测试一众中等大小开源模型。

目前初步结果，阿里Qwen 2.5-14B表现不错。

感兴趣的朋友可以玩起来了。

视频教程：
https://x.com/mckaywrigley/status/1849613686098506064

开源代码：
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator

参考链接：
[1]https://x.com/adonis_singh/status/1849529291085623372
[2]https://x.com/aidan_mclau/status/1849535981826752632

— 完 —

报名最后一天！

「2024人工智能年度评选」

量子位2024人工智能年度评选将于11月15日截止报名，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里👇关注我，记得标星哦～

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。