OpenAI团队告诉你为什么大语言模型会幻觉?

为什么别人写了幻觉的原因,我还写?

“这不是 AI 在正确地回答问题,而是 AI 在认真地‘答错了’。”

很多人都写过关于语言模型幻觉(Hallucination)原因的文章,但大多数分析停留在表层,比如“模型太小”“数据不够”或“推理能力不足”。这些解释看似合理,却忽略了更深层次的本质。

我最近在阅读论文时,发现了一篇由 OpenAI 与佐治亚理工学院(Georgia Tech)联合发表的论文 ——《Why Language Models Hallucinate》。

这篇论文的价值在于,它没有把幻觉归咎于“模型不够大”或“数据不够多”,而是从统计学习理论的角度,揭示了幻觉的根本成因。

论文指出,幻觉的根本原因来自两个方向:

  • 预训练阶段的统计误差传导(Statistical Error Propagation)
  • 后训练阶段的评估机制激励错位(Misaligned Incentive in Evaluation)

换句话说,幻觉并不是偶然的 bug,而是当前语言模型训练与评估体系下的必然产物


幻觉到底是什么?

在 AI 语境中,**幻觉(Hallucination)**指语言模型输出的内容“听起来合理,但事实上错误”。

它不是拼写错误,也不是模型“撒谎”,而是它生成了统计上最可能的答案,却与事实不符。例如:

你问:“OpenAI 的创始人中谁获得过诺贝尔奖?”
AI 回答:“Sam Altman 于 2022 年获得诺贝尔和平奖。”

听起来很合理,但完全是凭空编造。

常见幻觉类型

  • 事实性幻觉:引用不存在的论文、数据或来源。
  • 逻辑性幻觉:推理过程自相矛盾。
  • 语义性幻觉:语法正确但语义关系错误。

幻觉的危险在于,它“像真的”,而人类很难一眼发现错误。


用直觉理解幻觉

想象一次考试规则如下:

  • 答对 +10 分
  • 答错 −2 分
  • 不答 0 分

在这种激励下,你会选择空题吗?大概率不会。即使不会,也会“蒙一个”,因为不答永远拿不到分数。

语言模型的训练机制也类似:它被优化去“尽量回答”,而没有被鼓励去“拒答”或“表达不确定性”。
因此,当模型面对罕见或未见过的事实时,它会生成最可能的答案——哪怕事实错误。
这就是幻觉的直觉来源。

技术澄清

这个比喻并不是要把责任全归给训练目标。幻觉的形成是预训练统计误差 + 后训练激励错位的共同作用:

  • 预训练阶段:决定模型学到的概率分布;
  • 后训练阶段(例如 RLHF):决定模型在不确定时是“拒答”还是“硬答”。

两者结合,形成了我们观察到的“自信但错误”的输出行为。


预训练阶段的统计误差传导

语言模型预训练的目标是最大化预测下一个词的概率,也就是说模型学的是“什么词最可能出现”,而不是“什么是真的”。

训练数据存在偏差或稀缺时,这些误差会被模型学习并放大。
论文称这种现象为 Statistical Error Propagation(统计误差传导)

模型在有限样本下对语言分布的近似存在系统性偏差,而该偏差在生成阶段被放大为事实性幻觉。

例子:
语料中“量子计算”和“谷歌”频繁共现,而“量子计算”和“小米”几乎没有共现,
问“哪家公司率先实现量子霸权?”时,模型会输出“谷歌”。

这并不是欺骗,而是概率上最可能的选择。


后训练阶段的激励错位

RLHF 让模型更“懂人类意图”,但奖励机制有偏差:

标注员更倾向于给流畅、自信的答案高分,而不是事实正确的答案。

因此模型被激励去表现得正确,而非真的正确
论文称为 Incentive Misalignment(激励错位)

结果:幻觉不仅没消失,反而更有说服力。


理论层面:生成比验证更难

论文还通过统计学习理论指出:

生成正确答案比验证答案是否正确更难。

简单来说:判断“地球是不是太阳系的一部分”容易,
生成“第一个登月的人是谁”难度高。

数学上:

生成错误率 ≥ 2 × 验证错误率 − 校准项

这解释了为什么即使模型“懂”,自由生成时仍容易出错。


如何减少幻觉

虽然幻觉不可避免,但可以通过工程手段减轻:

✅ 让模型学会说“我不知道”
训练时鼓励模型拒答或提示不确定性:

“我不确定,请参考可靠来源。”

✅ 检索增强生成(RAG)
结合外部知识库,“先查再答”,减少记忆幻觉。

✅ 改进评估指标
衡量可验证性、置信度、引用真实性,而不仅仅流畅性。

✅ 模型校准(Calibration)
让模型意识到自身的不确定性,避免自信输出错误。

✅ 保留人工复核机制
在高风险场景(医疗、法律、科研)中保持人机协作,建立信任边界。


幻觉不是错误,而是代价

幻觉不是 AI 的“缺陷”,而是语言建模范式的统计代价
它提醒我们:生成语言 ≠ 理解事实。

预训练带来统计误差传导,后训练制造激励错位。

未来值得信赖的 AI,
不是“知道所有答案”的模型,
而是知道自己不知道的模型。


参考资料

✍️ 建议:阅读这篇论文,你会明白——幻觉不是 AI 的错误,而是语言生成机制在统计与激励之间的“数学宿命”。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值