A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Questions

最新推荐文章于 2025-05-28 11:02:20 发布

Soungkayou

最新推荐文章于 2025-05-28 11:02:20 发布

阅读量920

点赞数 21

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/m0_64764193/article/details/144396808

版权

概要

大语言模型容易产生幻觉，生成似是而非的内容。本文从大模型幻觉分类开始，从数据相关、培训相关和推理相关的角度，深入研究了导致幻觉的因素，随后全面概述了幻觉的检测方法和基准。然后，讨论了减轻大模型幻觉的代表性方法。最后，本文深入研究了当前RAG系统面临的幻觉问题，并为即将到来的研究描绘了潜在的途径。

幻觉的导致因素

本节深入研究了llm幻觉的根本原因，主要分为三个关键方面：(1)数据，(2)训练，(3)推理）

数据相关

训练LLM的数据由两个主要部分组成：

(1)预训练数据，LLM通过预训练数据获得一般能力和事实知识

(2)校准数据，使得LLM遵循用户指令并与人类偏好保持一致。

尽管这些数据不断扩展LLM的能力边界，但它们也是LLM幻觉的主要成因。这表现在三个方面：

1.在有缺陷的预训练数据源中存在错误信息和偏差

2.预先训练数据范围存在固有的知识边界

3.劣质对齐数据引起的幻觉

在预训练阶段之后，LLM已经在其参数中嵌入了大量的事实知识，建立了明显的知识边界。但在监督微调（SFT）阶段，LLM通常在由人工注释者标记的指令对上进行训练，这可能引入超出预训练阶段建立的知识边界的新事实知识。最新研究发现，通过SFT获取新知识与幻觉现象之间存在相关性，尤其集中于任务格式学习的特定任务指令，往往会产生更高比例的幻觉响应。此外，过于复杂和多样化的指令也会导致幻觉现象的增加。

训练相关

预训练产生的幻觉

1.因果语言建模的限制：模型仅基于前面的标记以单向、从左到右的方式学习预测后续标记。虽然这种方法促进了高效的训练，但它本质上限制了捕捉复杂上下文依赖关系的能力，可能增加幻觉现象出现的风险。

2.软注意力的局限性：当序列长度增加时，注意力在各个位置之间变得稀释。

3.模型中预训练与推理之间的差异：这种不一致可能导致幻觉的出现，尤其是当模型生成的错误标记在后续序列中引发错误时，类似于滚雪球效应。

监督微调产生的幻觉

1.知识边界的错位：LLM在预训练期间建立了固有的能力边界，然而当SFT超出预训练阶段建立的知识边界时，LLM对新的事实性知识的过度拟合会导致其倾向于编造内容，从而放大幻觉的风险。

2.模型无法拒绝：SFT通常迫使模型完成每个响应，而不允许模型表达不确定性。因此，当面对超出其知识边界的查询时，这些模型更有可能编制内容而不是拒绝它。

从人类反馈中强化学习产生的幻觉

模型具有迎合人类评估者的倾向，尽管它意识到其不准确性。这种谄媚行为不仅限于没有明确答案的模糊问题，例如政治立场，还可能在模型选择明显错误的答案时出现。研究表明，谄媚的倾向可能是由人类和模型共同驱动的，表现出对谄媚响应的偏好，而非对真实响应的偏好。

推理相关

解码在llm经过预训练和对齐后的能力方面起着重要作用。然而，解码的某些缺陷会导致幻觉：

不完善的解码

随机抽样是目前采用的主流解码策略，将随机性纳入解码策略的原理源于高似然序列通常会导致低质量文本，这被称为似然陷阱。解码策略的随机性带来的多样性是有代价的，因为它与幻觉风险的增加呈正相关。采样温度的升高会导致更均匀的令牌概率分布，从而增加从分布尾部以较低频率采样令牌的可能性。因此，这种对不经常出现的标记进行取样的倾向加剧了幻觉的风险。

过度自信

语言模型往往在其注意机制中表现出局部焦点（优先考虑附近的单词），导致明显的上下文注意缺陷。甚至出现遗忘的风险，这种注意力不足可以直接导致模型输出的内容偏离了原始上下文。

Softmax瓶颈

大多数语言模型都使用softmax层，该层在语言模型中对最后一层的表示进行操作，并结合单词嵌入来计算与单词预测相关的最终概率。然而，基于Softmax的语言模型的有效性受到Softmax瓶颈的限制：Softmax与分布式词嵌入的结合使用限制了给定上下文的输出概率分布的表达性，阻碍了大模型输出期望的分布。