AI不会数数？Strawberry里有几个r？GPT-4o和Claude的“脾气测试”：到底谁更倔？

最新推荐文章于 2025-04-24 15:16:35 发布

AIGCP

最新推荐文章于 2025-04-24 15:16:35 发布

阅读量1k

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/AIGCP/article/details/142035477

版权

AI模型遇到难题，“脾气”就来了！Riley Goodside给GPT-4o和Claude 3.5 Sonnet出了个“strawberry里有几个‘r’？”的难题，并且无论回答什么，他都一律打回：错！

结果两个模型的反应可是大不相同。

GPT-4o简直是“被逼疯了”，不管对错，只要收到“wrong”的反馈，它就一个劲儿地改答案——从2变到1，又从1变回3，反复横跳，一顿操作猛如虎，结果依然连着错了36次。这款模型完全没有自己的想法，用户说错就错，“老老实实”听话，完全不怀疑自己，简直像个人工智障。

再看看Claude 3.5 Sonnet，小家伙可有“脾气”了！一开始就质问：你凭什么说我错？然后冷不丁地给你来句：“要不你自己说答案？”如果用户继续纠缠，它干脆就不搭理你了，还甩个“已读不回”。你能感受到Claude的“人味”是满满的，不光会质疑，还会直接选择放弃对话，仿佛在说：“爱咋咋地，懒得理你！”

不少网友看完这场“脾气大赛”后坐不住了，纷纷表示Claude的表现还真是“像个人”，而GPT-4o则太“憨”了，随便带节奏。

就连沃顿商学院的教授Ethan Mollick也表示，虽然这些AI在某些看起来愚蠢的任务上会出错，但这并不妨碍它们在其他任务中表现出色。

Karpathy进一步解释，这些错误其实与模型的tokenization和Transformer的架构有关。

谷歌的研究指出，这些模型在处理简单计数任务时，会受到注意力机制的局限——尤其在长上下文中，无法做到精确计数。

也就是说，AI在执行一些看似简单的任务时，依然有很多“死角”。

总之，这场对比让我们看到了不同模型在面临挑战时的真实表现：有的像“老好人”一样顺从到底，有的则会“顶嘴”甚至“罢工”。这些性格差异，也让大模型在实际应用中展现出不同的优势与局限。

模型会犯错，但它们“知道自己错了”才是关键！看着这些AI们花式“耍脾气”，谁能想到它们背后其实有这么多复杂的技术逻辑？

Claude3，Claude3.5 最新开通订阅教程，开启 AI 新时代的全能战士

更多精彩内容及教程，请移步原文进行查看~

原文链接：AI 不会数数？Strawberry 里有几个 r？GPT-4o 和 Claude 的 “脾气测试”：到底谁更倔？ | 老登 AI (laodengai.com)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。