AI不会数数?Strawberry里有几个r?GPT-4o和Claude的“脾气测试”:到底谁更倔?

AI模型遇到难题,“脾气”就来了!Riley Goodside给GPT-4o和Claude 3.5 Sonnet出了个“strawberry里有几个‘r’?”的难题,并且无论回答什么,他都一律打回:错!

结果两个模型的反应可是大不相同。

GPT-4o简直是“被逼疯了”,不管对错,只要收到“wrong”的反馈,它就一个劲儿地改答案——从2变到1,又从1变回3,反复横跳,一顿操作猛如虎,结果依然连着错了36次。这款模型完全没有自己的想法,用户说错就错,“老老实实”听话,完全不怀疑自己,简直像个人工智障。

image-20240908231713881

再看看Claude 3.5 Sonnet,小家伙可有“脾气”了!一开始就质问:你凭什么说我错?然后冷不丁地给你来句:“要不你自己说答案?”如果用户继续纠缠,它干脆就不搭理你了,还甩个“已读不回”。你能感受到Claude的“人味”是满满的,不光会质疑,还会直接选择放弃对话,仿佛在说:“爱咋咋地,懒得理你!”

image-20240908231759779

不少网友看完这场“脾气大赛”后坐不住了,纷纷表示Claude的表现还真是“像个人”,而GPT-4o则太“憨”了,随便带节奏。

就连沃顿商学院的教授Ethan Mollick也表示,虽然这些AI在某些看起来愚蠢的任务上会出错,但这并不妨碍它们在其他任务中表现出色。

Karpathy进一步解释,这些错误其实与模型的tokenization和Transformer的架构有关。

image-20240908232221496

谷歌的研究指出,这些模型在处理简单计数任务时,会受到注意力机制的局限——尤其在长上下文中,无法做到精确计数。

也就是说,AI在执行一些看似简单的任务时,依然有很多“死角”。

总之,这场对比让我们看到了不同模型在面临挑战时的真实表现:有的像“老好人”一样顺从到底,有的则会“顶嘴”甚至“罢工”。这些性格差异,也让大模型在实际应用中展现出不同的优势与局限。

模型会犯错,但它们“知道自己错了”才是关键!看着这些AI们花式“耍脾气”,谁能想到它们背后其实有这么多复杂的技术逻辑?

Claude3,Claude3.5 最新开通订阅教程,开启 AI 新时代的全能战士

GPT-4o教程

更多精彩内容及教程,请移步原文进行查看~

原文链接:AI 不会数数?Strawberry 里有几个 r?GPT-4o 和 Claude 的 “脾气测试”:到底谁更倔? | 老登 AI (laodengai.com)

### 大模型错误分析 大模型在处理单词 "strawberry" 并得出其含有两个字母 'r' 的结论时,实际上遵循了一种基于统计模式匹配的方法。然而,在某些情况下,这种机制可能导致误解或计算失误。 #### 统计学习的基础 大模型通过大量数据训练而成,主要依赖于上下文中的概率分布来进行预测推理。对于像 “strawberry” 这样的简单问题,理论上应该能够给出正确答案。但实际上,如果输入的数据集中存在噪声或者不一致的结果,则可能会误导模型的学习过程[^1]。 #### 数据集偏差的影响 当涉及到具体细节如字符数量等问题时,如果没有足够的高质量标注样本供模型学习,就可能出现误差。例如,“strawberry中有几个r?”这类基础性问题是相对少见的查询类型,因此可能未被充分覆盖在其训练语料库中[^3]。这意味着即使大多数时候它能很好地完成任务,但对于一些特别简单的事实型问题也可能犯错。 #### 上下文理解不足 尽管具备强大的自然语言处理能力,但有时这些系统并不能完全按照人类思维方式去解析每一个单独词语内部结构。比如在这讨论的是单个英文单词内的重复字母数目情况;而通常情况下它们擅长应对较复杂的句子关系理解生成工作而不是逐字扫描并精确计数某个特定字符出现次数的任务[^2]。 ```python word = "strawberry" count_r = word.count('r') print(f"The letter 'r' appears {count_r} times in the word '{word}'.") ``` 上述Python代码展示了如何准确地计算字符串中某字符的数量。这种方法直接且无误,与之相比,大模型由于其内在的工作机理差异,偶尔会出现偏离预期的现象。 ### 结论 综上所述,虽然现代的大规模预训练语言模型拥有令人惊叹的能力,但在面对非常具体的、需要高度准确性的小范围知识点询问时仍可能存在局限性潜在漏洞。这是由多方面因素共同作用造成的,包括但不限于训练数据的质量、算法设计特点以及应用场景适配度等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值