Agentic方法减少LLM幻觉:深度解析与实践(文末含代码)

在人工智能领域,尤其是大型语言模型(LLM)的应用中,幻觉(Hallucination)现象一直是影响模型可靠性和准确性的关键问题。幻觉(如何消除大型语言模型(LLM)中的幻觉现象)指的是LLM生成的文本要么毫无意义,要么与输入数据相矛盾。这不仅降低了用户体验,还可能导致严重的误解和错误决策。为了应对这一挑战,研究者们提出了多种策略,其中Agentic方法以其独特的逻辑链条和验证机制,在减少LLM幻觉方面展现出了显著的效果。

一、LLM幻觉现象概述

在深入讨论Agentic方法之前,我们有必要先了解LLM幻觉(LLM 幻觉:现象剖析、影响与应对策略)现象的三种主要类型:

(一)内在幻觉

内在幻觉指的是 LLM 的响应与用户提供的上下文相矛盾。在当前给定的上下文中,其响应可以被明确证实是错误的。例如,当用户提供了关于某个特定历史事件的准确描述,而 LLM 给出的答案与这些已知事实不符时,就属于内在幻觉。这可能是由于模型对知识的理解不准确或在训练过程中获取了错误的信息关联。

(二)外在幻觉

外在幻觉是指 LLM 的响应无法通过用户提供的上下文进行验证。虽然该响应可能正确也可能错误,但仅依据当前的上下文无法确定其真实性。这种情况常见于模型尝试超出给定信息进行推断,但缺乏足够的依据来证实其推断的合理性。例如,当被问及一个未在上下文中提及的未来事件的预测时,模型的回答就难以从现有上下文中得到验证。

(三)不连贯幻觉

不连贯幻觉表现为 LLM 的响应没有回答问题或者毫无意义。这意味着模型未能遵循指令,无法生成与问题相关且逻辑连贯的答案。比如,对于一个明确的数学计算问题,模型却给出了一段与数学无关的文字描述,这就是不连贯幻觉的体现。这种情况可能是由于模型对问题的理解出现偏差,或者在生成答案时未能遵循正确的逻辑路径。

这些幻觉现象的存在,严重影响了LLM在问答、信息抽取、文本生成等任务中的性能。因此,寻找有效的方法来减少甚至消除这些幻觉现象,成为当前人工智能研究的重要课题。

二、Agentic方法原理

Agentic方法是一种基于代理(Agent)的工作流程,旨在通过一系列步骤来验证LLM生成的答案,从而减少幻觉现象(基于验证链(Chain of Verification)的大语言模型幻觉问题解决方案)。该方法的核心思想是利用LLM自身的逻辑判断能力,对生成的答案进行自我验证。具体步骤如下:

  1. 包含上下文并提问:首先,将问题及其相关上下文提供给LLM,以获得初步的答案和LLM用于生成答案的相关上下文。这一步的目的是获取一个初步的候选答案以及支持该答案的上下文信息。

  2. 将问题和答案重新表述为声明性语句:接下来,将问题和初步答案重新表述为一个单一的声明性语句。这一步的目的是将问题和答案整合为一个易于验证的陈述,为后续的验证步骤做准备。

  3. 验证陈述:最后,要求LLM分析提供的上下文和声明性语句,并判断上下文是否蕴含该声明。这一步是验证过程的核心,通过LLM的逻辑判断能力来确认答案的正确性。

三、减少幻觉的技巧

(一)使用基础设定

基础设定是在向 LLM 提出任务时,在输入中提供领域内相关的额外上下文。这为 LLM 提供了正确回答问题所需的信息,从而降低了产生幻觉的可能性。例如,在询问一个数学问题时,仅提供问题本身和同时提供相关数学书籍的章节内容,会得到不同的结果,后者更有可能得出正确答案。在实际应用中,如在处理文档相关的任务时,通过提供文档中提取的上下文,可以帮助 LLM 更好地理解问题并给出准确的回答。这也是检索增强生成(RAG)技术的核心原理之一,通过从外部知识库中检索相关信息来补充输入,使模型的回答更有依据。

(二)使用结构化输出

强制 LLM 输出有效的 JSON 或 YAML 文本属于使用结构化输出的方式。这样做可以减少无用的冗长表述,直接获取符合需求的 “直切要点” 的答案。同时,结构化输出有助于后续对 LLM 响应的验证。以 Gemini 的 API 为例,可以定义一个 Pyd

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值