Self-Reflection缓解LLM幻觉(Hallucination)问题

Background

        自从Chat-GPT发布以来,国内外的LLM的军备竞赛正在如火如荼的进行。LLM的综合能力在不断的提升,提升速度也在增加,LLM表现的一些问题也在凸显出来,其中一个比较严重的问题就是“幻觉问题”,Hallucination。

        Hallucination:大模型生成的内容听起来有道理,但是实际却是不切实际、没有意义的。

这个问题日常生活中的使用中影响没有那么严重,但是在专业领域,尤其是对于科学和逻辑理论要求十分严格的领域极为重要,一旦出现错误将是十分严重的后果,因此hallucination是一个十分重要的问题,缓解甚至解决这个问题,对于LLM来说将是质的飞跃。

Introduction

        幻觉的定义已经讲过不再赘述。那么给出一个具体的案例形象的理解幻觉问题。下面问的问题是:努南综合症的病因是什么?回答是:努南综合征是由 PTEN 基因突变引起的。该基因负责调节细胞生长和分裂,当它发生突变时,可能会导致努南综合征的发生

        标记红色的部分是不切实际的,没有科学依据的内容。事实上PTEN(磷酸酶和张力蛋白同源物)突变通常与努南综合征无关,所以LLM的回答的不切实际、不科学的内容就是Hallucination现象。

Hallucination in Generative Question Answering 

        Hallucination现象在于GQA(Generation-Question-Answer)中尤其重要是要解决的,但是大模型的训练和改善基于很多数据集以及其他因素,所以彻底解决目前来看不切实际,但是可以缓解这个现象带来的影响。

        Faithful GQA 旨在生成严格基于源文本或有效外部知识的答案,已获得了广泛的研究关注。答案越忠实,其中包含的幻觉内容就越少。其他术语如语义漂移、事实正确性也可以反映幻觉程度。

Experimentation

我将实验涉及的数据集和模型以及评估标准以表格的形式展现出来这样更加直观。

实验涉及的数据集

数据集描述来源
PubMedQA包含 1k 专家标注的生物医学问答实例,问题来源于研究文章标题,包含摘要作为上下文,以及来自摘要结论的长答案和简洁的 yes/no/maybe 答案。Jin et al., 2019
MedQuAD包含 47,457 对来自美国国立卫生研究院(NIH)网站的问答对,涵盖疾病、药物、诊断测试等多个医疗主题。Ben Abacha & Demner-Fushman, 2019
MEDIQA2019来自 MEDIQA2019 挑战赛的医疗问答数据集,答案得分为 3 和 4 的被视为黄金答案。Ben Abacha et al., 2019
LiveMedQA2017包含用于问题分析和问答系统的注释医疗问答对。Ben Abacha et al., 2017
MASH-QA包括来自消费者健康领域的 34k 问答对,专为多答案范围(Multiple Answer Spans)医疗问答设计。Zhu et al., 2020

实验涉及的模型

模型名称描述来源
Vicuna基于 LLaMA 训练,通过对 ShareGPT 中的用户共享对话进行微调训练的模型。Chiang et al., 2023
Alpaca-LoRA使用低秩适配(LoRA)方法复现 Stanford Alpaca 模型效果。Wang, 2023
ChatGPT使用人类反馈强化学习(RLHF)优化的通用模型,可解释提示并生成综合性回答。OpenAI, 2023
MedAlpaca基于 LLaMA 框架,专门在指令微调格式的医疗对话和问答文本上微调。Han et al., 2023
Robin-medical基于 LLaMA 使用 LMFlow 进行医疗领域微调的模型。Diao et al., 2023

评估标准

评估指标描述来源
F1衡量生成答案的精确率与召回率的平衡,适合定量评价生成内容的覆盖程度和准确性。Su et al., 2022
ROUGE-L基于最长公共子序列(LCS)的文本相似度指标,用于评估生成答案与参考答案的文本重合程度。Lin, 2004
Med-NLI医学自然语言推理指标,评估生成答案是否与上下文或参考答案在逻辑上一致(包括支持、矛盾、中立)。Phan et al., 2021
CTRLEval无监督、无参考、任务无关的生成评估指标,针对一致性、流畅性等多个方面进行评估。Ke et al., 2022

数值越大性能越好。 

实验结果:

 

        针对于实验结果产生的问题,大概分为三类:事实不一致、查询不一致和相切性事实不一致是指答案提供的信息与事实不一致或相冲突。查询不一致是指与查询无关或无意义的答案。切题性是指提供与主题相关的信息但不直接解决问题的答案。

        每个模型中不同类型问题出现的原始(幻觉现象优化前)概率。

        前两类认为属于幻觉问题。下图通过QA的方式体现了三种类别含义。

        该实验结束后对于幻觉问题的定义,但是同时发现由于使用的实验数据集中每个数据出现的频率的不切实际性,后来又实用Google ngrams4作为自然世界和预训练预料的文本分布代理,然后让LLM随机生成100个样本。精确到词语和句子,最终结果如下图,所以幻觉产生的原因和一些专业词汇的低频性有关系,某个词汇在预料库中出现次数少,对于LLM对其的理解就会出现偏颇,就会产生幻觉的现象。

Hallucination Mitigation Method 

        为了解决幻觉问题提出了一个自我反思的过程,包括:事实性知识获取循环、知识一致性回答的循环、问题蕴含回答循环。(Factual Knowledge Acquiring Loop, Knowledge-Consistent Answering Loop, and Question-Entailment Answering Loop.)其核心是通过生成-反思-优化的迭代机制,逐步提高生成内容的质量和一致性。

        首先,模型根据问题生成初始知识(如 Noonan 综合征的成因),并通过评分机制(Scorer)对生成的知识进行事实性评分;如果评分低于阈值,则通过反馈提示优化知识。随后,模型基于改进后的知识生成初步答案,再次使用评分机制评估答案的一致性。如果一致性评分低,则生成反馈提示,进一步优化答案。这一流程通过“知识优化”和“答案优化”的双循环机制,不断迭代,最终生成逻辑一致且事实准确的高质量答案,减少幻觉问题的发生。

        所以我认为这个流程的关键就是使用的语料库和Scorer打分器的构建。

        “查询不一致”意味着答案提供与查询无关的信息或者是无意义且无意义的。 “切线”意味着答案提供了与问题相关的信息,但不直接解决问题。 “蕴含”意味着答案直接针对问题。对事实一致性的人工评估是在句子级别进行的,我们要求注释者将答案中的每个句子分类为事实不一致、事实一致或通用。 “事实不一致”意味着答案句子不一致传统或无法通过参考上下文或网站进行验证。“事实一致”是指答案句子得到给定上下文或网站的支持。

        经过自我反思循环后各个模型中各个问题类型出现的概率以及之后的综合评估指标数据(结果明显好于经过反思流程之前,有效压制了幻觉现象):

         虽然该方法有望减轻幻觉,但并不能完全消除这种可能性。特别是在复杂或模棱两可的情况下,模型仍有可能产生无根据的信息。目前,该方法仍处于早期阶段,还不能直接用于现实世界。它应被视为与检索等其他方法的互补方法,有可能在未来为更强大的应用系统做出贡献。同时研究主要集中在英语医疗查询上,限制了对其他语言、领域和模式的通用性。有必要开展进一步研究,以探讨潜在的特定语言挑战、领域适应挑战和多模态融合挑战。通过解决这些方面的问题,可以使提出的方法适应不同的环境,从而更全面地理解和应用我们的方法,使其适用于不同的语言、多领域和多模态环境。虽然本文已经解决了这一领域的某些问题,但仍存在许多挑战,例如赋予 LLMs 高级能力。

        

在智能体(AIAgent)的研究领域,Task Decomposition(任务分解)和Self-Reflection(自我反思)是两种关键的技术,它们共同作用于提升智能体处理复杂任务的能力。Task Decomposition涉及将复杂任务分解成更小、更易于管理的子任务,这有助于智能体更有效地进行规划和执行。Self-Reflection则是智能体在执行任务过程中对其行为进行监控和评估的能力,它允许智能体根据执行结果调整后续的行动计划。 参考资源链接:[智能体全景:从LLM到AGI的探索与挑战](https://wenku.youkuaiyun.com/doc/2n3106nqp4?spm=1055.2569.3001.10343) 要理解这两种技术如何协同工作,我们首先需要了解它们各自的作用。任务分解技术使智能体能够识别复杂任务中的关键元素和次级目标,从而简化问题解决过程。例如,在一个大型项目管理中,任务分解可以帮助智能体将项目划分为一系列小任务,每个任务都有明确的输入、输出和完成标准。然后,智能体可以对这些子任务进行优先级排序,分配资源,并监控每个子任务的完成情况。 另一方面,自我反思使智能体能够从执行过程中学习。智能体通过分析每个子任务的执行结果,识别哪些方法有效、哪些需要改进。例如,如果一个子任务的执行结果与预期不符,智能体可以通过自我反思来调整其策略或尝试新的解决方案。 这两种技术的协同工作使得智能体能够灵活应对任务中的各种挑战。智能体在进行任务分解时,可以利用自我反思来优化分解过程,确保分解出的子任务是实际可行的。同时,智能体在执行过程中持续进行自我反思,及时调整子任务的执行策略,以确保整个任务能够顺利进行。 此外,自我反思还可以帮助智能体在执行后评估整个任务的效率和效果,为未来处理类似任务提供经验教训。这种能力对于智能体来说至关重要,因为它可以持续改进其性能,提高解决问题的效率和质量。 要深入了解Task Decomposition和Self-Reflection技术,以及它们在AIAgent中的应用和实践,推荐参阅《智能体全景:从LLM到AGI的探索与挑战》。这份资料不仅详细介绍了智能体的构成和原理,还结合了最新的AI Agent项目,如Camel和AutoGPT等,展示了这些技术在实际应用中的效果和潜力。通过学习这些内容,你将能够全面掌握智能体在复杂任务执行中的先进技术和方法论。 参考资源链接:[智能体全景:从LLM到AGI的探索与挑战](https://wenku.youkuaiyun.com/doc/2n3106nqp4?spm=1055.2569.3001.10343)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值