A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Questions

目录

概要

相关知识

幻觉的导致因素

数据相关

1.在有缺陷的预训练数据源中存在错误信息和偏差

2.预先训练数据范围存在固有的知识边界

3.劣质对齐数据引起的幻觉

训练相关

预训练产生的幻觉

监督微调产生的幻觉

从人类反馈中强化学习产生的幻觉

推理相关

不完善的解码

过度自信

Softmax瓶颈

推理失败

幻觉检测方法

事实性幻觉检测

1.事实检查

2.不确定性估计

忠实性幻觉检测

基于事实的指标

基于分类器的指标

基于不确定性的指标

基于LLM的判断

幻觉检测基准

幻觉缓解策略

减轻数据相关幻觉

数据过滤

模型编辑

检索增强生成

减轻与训练有关的幻觉

减轻预训练产生的幻觉

减轻训练相关幻觉

减轻推理相关幻觉

事实增强解码

忠诚增强解码

上下文一致性

逻辑一致性

RAG系统面临的幻觉问题

检索失败

用户查询的表述

检索源的可靠性和范围

检索器的有效性

生成瓶颈

总结


概要

大语言模型容易产生幻觉,生成似是而非的内容。本文从大模型幻觉分类开始,从数据相关、培训相关和推理相关的角度,深入研究了导致幻觉的因素,随后全面概述了幻觉的检测方法和基准。然后,讨论了减轻大模型幻觉的代表性方法。最后,本文深入研究了当前RAG系统面临的幻觉问题,并为即将到来的研究描绘了潜在的途径。

相关知识

1.大语言模型的训练:

llm经历三个主要训练阶段:预训练、监督微调(SFT)和从人类反馈中强化学习(RLHF)。

预训练:LLM通过自回归预测序列中的后续标记。通过在大量文本语料库上进行自监督训练,获得了语言语法和推理能力。

监督微调(SFT):使用经过精心注释的(指令,响应)对LLM进一步训练。

基于人类反馈的强化学习(RLHF):使用一个经过训练的偏好模型来预测给定提示和一对人工标记响应的偏好排名。为了与人类偏好保持一致,RLHF优化LLM以生成输出,使训练好的偏好模型提供的奖励最大化,通常采用强化学习算法,如近端策略优化(PPO)。

2.幻觉的分类:事实幻觉和忠实幻觉。

事实幻觉强调生成的内容与可验证的现实世界事实之间的差异,通常表现为事实矛盾或捏造事实:

  • 事实矛盾:输出包含基于现实世界信息的事实,但存在矛盾的情况,根据矛盾的错误类型,又可进一步分为实体错误幻觉和关系错误幻觉两类;
  • 捏造事实:输出包含的事实是无法验证的建立现实世界的知识的实例,这可以进一步分为不可验证幻觉和夸大幻觉。

忠实幻觉捕捉到生成内容与用户输入的差异,或者生成内容缺乏自一致性。这一类别又可细分为:

  • 指令不一致,即内容偏离了用户的原始指令;
  • 上下文不一致,强调与所提供上下文的差异;
  • 和逻辑上的不一致,指出内容内部的矛盾。

幻觉的导致因素

本节深入研究了llm幻觉的根本原因,主要分为三个关键方面:(1)数据,(2)训练,(3)推理)

数据相关

训练LLM的数据由两个主要部分组成:

(1)预训练数据,LLM通过预训练数据获得一般能力和事实知识

(2)校准数据,使得LLM遵循用户指令并与人类偏好保持一致。

尽管这些数据不断扩展LLM的能力边界,但它们也是LLM幻觉的主要成因。这表现在三个方面:

1.在有缺陷的预训练数据源中存在错误信息和偏差

2.预先训练数据范围存在固有的知识边界

3.劣质对齐数据引起的幻觉

在预训练阶段之后,LLM已经在其参数中嵌入了大量的事实知识,建立了明显的知识边界。但在监督微调(SFT)阶段,LLM通常在由人工注释者标记的指令对上进行训练,这可能引入超出预训练阶段建立的知识边界的新事实知识。最新研究发现,通过SFT获取新知识与幻觉现象之间存在相关性,尤其集中于任务格式学习的特定任务指令,往往会产生更高比例的幻觉响应。此外,过于复杂和多样化的指令也会导致幻觉现象的增加。

训练相关

预训练产生的幻觉

1.因果语言建模的限制:模型仅基于前面的标记以单向、从左到右的方式学习预测后续标记。虽然这种方法促进了高效的训练,但它本质上限制了捕捉复杂上下文依赖关系的能力,可能增加幻觉现象出现的风险。

2.软注意力的局限性:当序列长度增加时,注意力在各个位置之间变得稀释。

3.模型中预训练与推理之间的差异:这种不一致可能导致幻觉的出现,尤其是当模型生成的错误标记在后续序列中引发错误时,类似于滚雪球效应。

监督微调产生的幻觉

1.知识边界的错位:LLM在预训练期间建立了固有的能力边界,然而当SFT超出预训练阶段建立的知识边界时,LLM对新的事实性知识的过度拟合会导致其倾向于编造内容,从而放大幻觉的风险。

2.模型无法拒绝:SFT通常迫使模型完成每个响应,而不允许模型表达不确定性。因此,当面对超出其知识边界的查询时,这些模型更有可能编制内容而不是拒绝它。

从人类反馈中强化学习产生的幻觉

模型具有迎合人类评估者的倾向,尽管它意识到其不准确性。这种谄媚行为不仅限于没有明确答案的模糊问题,例如政治立场,还可能在模型选择明显错误的答案时出现。研究表明,谄媚的倾向可能是由人类和模型共同驱动的,表现出对谄媚响应的偏好,而非对真实响应的偏好。

推理相关

解码在llm经过预训练和对齐后的能力方面起着重要作用。然而,解码的某些缺陷会导致幻觉:

不完善的解码

随机抽样是目前采用的主流解码策略,将随机性纳入解码策略的原理源于高似然序列通常会导致低质量文本,这被称为似然陷阱。解码策略的随机性带来的多样性是有代价的,因为它与幻觉风险的增加呈正相关。采样温度的升高会导致更均匀的令牌概率分布,从而增加从分布尾部以较低频率采样令牌的可能性。因此,这种对不经常出现的标记进行取样的倾向加剧了幻觉的风险。

过度自信

语言模型往往在其注意机制中表现出局部焦点(优先考虑附近的单词),导致明显的上下文注意缺陷。甚至出现遗忘的风险,这种注意力不足可以直接导致模型输出的内容偏离了原始上下文。

Softmax瓶颈

大多数语言模型都使用softmax层,该层在语言模型中对最后一层的表示进行操作,并结合单词嵌入来计算与单词预测相关的最终概率。然而,基于Softmax的语言模型的有效性受到Softmax瓶颈的限制:Softmax与分布式词嵌入的结合使用限制了给定上下文的输出概率分布的表达性,阻碍了大模型输出期望的分布。

推理失败

1.大模型推理能力的限制:如果问题之间存在多个关联,LLM可能难以产生准确的结果。

2.逆转诅咒:当问题被表述为“A是B”时,模型可以正确回答,但当被问及相反的“B是A”时,它表现出失败的逻辑推理。

幻觉检测方法

现有的llm幻觉检测策略可以根据幻觉的类型进行分类:

  • 事实性幻觉检测,旨在识别模型输出中的事实不准确性。
  • 忠实性幻觉检测,侧重于评估模型输出对所提供的上下文信息的忠实性。

事实性幻觉检测

典型的方法通常分为两类:

  • 事实检查,这涉及到针对可信的知识验证所生成响应的真实性。
  • 不确定性估计,侧重于通过内部不确定性信号检测事实不一致。
1.事实检查

由于大模型的输出通常是全面的,由多个事实陈述组成的。事实检查方法通常分为两个主要步骤:(1)事实提取,这涉及到在模型的输出中提

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值