OpenAI团队告诉你为什么大语言模型会幻觉?
为什么别人写了幻觉的原因,我还写?
“这不是 AI 在正确地回答问题,而是 AI 在认真地‘答错了’。”
很多人都写过关于语言模型幻觉(Hallucination)原因的文章,但大多数分析停留在表层,比如“模型太小”“数据不够”或“推理能力不足”。这些解释看似合理,却忽略了更深层次的本质。
我最近在阅读论文时,发现了一篇由 OpenAI 与佐治亚理工学院(Georgia Tech)联合发表的论文 ——《Why Language Models Hallucinate》。
这篇论文的价值在于,它没有把幻觉归咎于“模型不够大”或“数据不够多”,而是从统计学习理论的角度,揭示了幻觉的根本成因。
论文指出,幻觉的根本原因来自两个方向:
- 预训练阶段的统计误差传导(Statistical Error Propagation)
- 后训练阶段的评估机制激励错位(Misaligned Incentive in Evaluation)
换句话说,幻觉并不是偶然的 bug,而是当前语言模型训练与评估体系下的必然产物。
幻觉到底是什么?
在 AI 语境中,**幻觉(Hallucination)**指语言模型输出的内容“听起来合理,但事实上错误”。
它不是拼写错误,也不是模型“撒谎”,而是它生成了统计上最可能的答案,却与事实不符。例如:
你问:“OpenAI 的创始人中谁获得过诺贝尔奖?”
AI 回答:“Sam Altman 于 2022 年获得诺贝尔和平奖。”
听起来很合理,但完全是凭空编造。
常见幻觉类型
- 事实性幻觉:引用不存在的论文、数据或来源。
- 逻辑性幻觉:推理过程自相矛盾。
- 语义性幻觉:语法正确但语义关系错误。
幻觉的危险在于,它“像真的”,而人类很难一眼发现错误。
用直觉理解幻觉
想象一次考试规则如下:
- 答对 +10 分
- 答错 −2 分
- 不答 0 分
在这种激励下,你会选择空题吗?大概率不会。即使不会,也会“蒙一个”,因为不答永远拿不到分数。
语言模型的训练机制也类似:它被优化去“尽量回答”,而没有被鼓励去“拒答”或“表达不确定性”。
因此,当模型面对罕见或未见过的事实时,它会生成最可能的答案——哪怕事实错误。
这就是幻觉的直觉来源。
技术澄清
这个比喻并不是要把责任全归给训练目标。幻觉的形成是预训练统计误差 + 后训练激励错位的共同作用:
- 预训练阶段:决定模型学到的概率分布;
- 后训练阶段(例如 RLHF):决定模型在不确定时是“拒答”还是“硬答”。
两者结合,形成了我们观察到的“自信但错误”的输出行为。
预训练阶段的统计误差传导
语言模型预训练的目标是最大化预测下一个词的概率,也就是说模型学的是“什么词最可能出现”,而不是“什么是真的”。
训练数据存在偏差或稀缺时,这些误差会被模型学习并放大。
论文称这种现象为 Statistical Error Propagation(统计误差传导):
模型在有限样本下对语言分布的近似存在系统性偏差,而该偏差在生成阶段被放大为事实性幻觉。
例子:
语料中“量子计算”和“谷歌”频繁共现,而“量子计算”和“小米”几乎没有共现,
问“哪家公司率先实现量子霸权?”时,模型会输出“谷歌”。
这并不是欺骗,而是概率上最可能的选择。
后训练阶段的激励错位
RLHF 让模型更“懂人类意图”,但奖励机制有偏差:
标注员更倾向于给流畅、自信的答案高分,而不是事实正确的答案。
因此模型被激励去表现得正确,而非真的正确。
论文称为 Incentive Misalignment(激励错位)。
结果:幻觉不仅没消失,反而更有说服力。
理论层面:生成比验证更难
论文还通过统计学习理论指出:
生成正确答案比验证答案是否正确更难。
简单来说:判断“地球是不是太阳系的一部分”容易,
生成“第一个登月的人是谁”难度高。
数学上:
生成错误率 ≥ 2 × 验证错误率 − 校准项
这解释了为什么即使模型“懂”,自由生成时仍容易出错。
如何减少幻觉
虽然幻觉不可避免,但可以通过工程手段减轻:
✅ 让模型学会说“我不知道”
训练时鼓励模型拒答或提示不确定性:
“我不确定,请参考可靠来源。”
✅ 检索增强生成(RAG)
结合外部知识库,“先查再答”,减少记忆幻觉。
✅ 改进评估指标
衡量可验证性、置信度、引用真实性,而不仅仅流畅性。
✅ 模型校准(Calibration)
让模型意识到自身的不确定性,避免自信输出错误。
✅ 保留人工复核机制
在高风险场景(医疗、法律、科研)中保持人机协作,建立信任边界。
幻觉不是错误,而是代价
幻觉不是 AI 的“缺陷”,而是语言建模范式的统计代价。
它提醒我们:生成语言 ≠ 理解事实。
预训练带来统计误差传导,后训练制造激励错位。
未来值得信赖的 AI,
不是“知道所有答案”的模型,
而是知道自己不知道的模型。
参考资料
✍️ 建议:阅读这篇论文,你会明白——幻觉不是 AI 的错误,而是语言生成机制在统计与激励之间的“数学宿命”。
877

被折叠的 条评论
为什么被折叠?



