文章目录
一. 大模型的局限
1. 大模型不会计算
LLM根据给定的输入提示词逐个预测下一个词(也就是标记),从而生成回答。在大多数情况下,模型的输出是与提问相关的,并且完全可用,但是在使用语言模型时需要小心,因为它们给出的回答可能不准确。这种回答通常被称为AI幻觉
。对于依赖GPT的用户来说,AI幻觉可能带来危险。你需要仔细核对并批判性地审视模型的回答。
考虑以下例子。
首先,我们让模型计算一个简单的式子:2 + 2。不出所料,它给出的答案是4。非常好!然后,我们让它计算一个复杂的式子:3695 × 123548。尽管正确答案是456509860,但模型非常自信地给出了一个错误的答案,如图。当我们要求它进行检查并重新计算时,它仍然给出了一个错误的答案。
只会补全文本
尽管我们可以使用插件系统向GPT添加新功能,但GPT默认不包含计算器。为了回答我们的问题,即2 + 2等于多少,GPT逐个生成每个标记。
它之所以能正确回答,是因为它可能经常在训练文本中遇到2 + 2等于4。
这并不能说明它会计算,只能说明它会补全文本
而已。
犯错的原因
GPT很可能没有在其训练文本中见过太多次3695 × 123548。
这就是它犯错的原因。
因此,在应用程序中使用GPT时要特别小心。如果GPT犯错,那么你的应用程序可能会得到不一致的结果。