大语言模型减少幻觉的常见方案

原创已于 2025-04-18 20:41:23 修改 · 1.2k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #算法 #人工智能

于 2025-04-18 20:41:09 首次发布

LLM 专栏收录该内容

22 篇文章

订阅专栏

什么是大语言模型的幻觉

大语言模型的幻觉（Hallucination）是指模型在生成文本时，输出与输入无关、不符合事实、逻辑错误或完全虚构的内容。这种现象主要源于模型基于概率生成文本的本质，其目标是生成语法合理、上下文连贯的文本，而非严格追求事实准确性

降低幻觉发生概率的方法

常见的5种方法如下

检索增强生成（RAG）：将外部知识库或实时检索信息进行整合，将验证后的结构化数据输入模型，减少模型自由生成的概率
Prompt优化：对提示词进行约束，引导模型输出规范，例：命令模型先列出信息来源再总结回答
优化训练数据：提升数据质量，去除噪声数据
调整训练策略：使用DPO（直接偏好优化 Direct Preference Optimization）训练方法，对幻觉问题进行定向修复
优化架构：引入Reflection机制，基于动态错误检测及自我修正，提升输出可靠性，最终降低幻觉

RAG减少幻觉的例子

通过从外部数据库或API中检索实时信息，使模型的输出基于最新的、经过验证的数据。
例，当被问及“当日最新事件时，使用RAG的模型可以检索最新的事件新闻，而不是依赖过时的训练数据。

提示工程减少幻觉

细化提示：将任务分解为多个子任务，避免模型过度发散。细化提示的核心在于将一个模糊、宽泛的任务拆解为多个明确、具体的子任务。每个子任务都有明确的目标和边界，从而让模型能够更聚焦地处理每个部分，避免因任务过于笼统而导致的偏离主题或生成不相关的内容。

Prompt:“生成一篇关于气候变化对全球经济影响的文章”

原始提示的问题是任务过于宽泛，生成的文章可能会涵盖大量无关内容，或者在某些方面过于简略，甚至出现逻辑矛盾。

细化后的Prompt

定义气候变化：简要介绍气候变化的科学背景。
分析主要影响领域：分别讨论气候变化对农业、工业、金融市场等的具体影响。
提供数据支持：引用权威研究数据来支持观点。
探讨应对措施：讨论各国和国际组织采取的应对策略及其效果。
总结和展望：总结气候变化对全球经济的总体影响，并对未来趋势进行预测。
通过细化提示，模型能够更系统地处理每个部分，生成更高质量、更符合任务要求的内容。

优化训练数据

大语言模型的幻觉问题很大程度上源于训练数据中的噪声、错误或不一致信息。这些噪声可能导致模型学习到错误的模式或关联，从而在生成文本时输出与事实不符的内容。通过优化训练数据，可以减少这些噪声的影响，使模型学习到更准确、更可靠的知识，从而降低幻觉的发生概率。
优化方法有数据清洗、数据增强、引入高质量数据源、对抗性训练。

调整训练策略

后训练方法有SFT、DPO、RL，根据实际场景调整策略。

维度	监督微调（SFT）	直接偏好优化（DPO）	强化学习（RL）
方法概述	使用大量人工标注的示例数据对预训练模型进行微调，使模型能够理解指令并生成符合人类期望的输出。	基于人类偏好的排序数据，直接优化模型的生成策略，无需训练奖励模型。	利用人类反馈训练奖励模型，再通过强化学习算法（如PPO）优化模型策略。
适用场景	适用于需要快速提升模型在特定任务上的表现，尤其是当有大量标注数据时。	适用于有偏好排序数据的场景，尤其是希望简化训练流程、降低计算成本时。	适用于需要精确对齐人类偏好的复杂任务，尤其是当偏好数据较为复杂时。
优势	训练过程简单，计算成本低，能够快速提升模型在特定任务上的表现。	流程简化，训练稳定，资源消耗低，且能有效提升模型输出与人类偏好的一致性。	充分利用人类偏好，优化效果好，模型生成内容更符合人类价值观。
劣势	可能生成带有偏见或不当内容的文本，且对长距离依赖关系的处理能力有限。	性能提升的上限可能低于RLHF，且在复杂偏好场景下的表现可能不如RLHF。	训练流程繁琐，资源消耗大，超参数敏感，训练过程不稳定。

基于Reflection机制优化

Reflection（反思或自省机制）是指大语言模型在生成输出后，通过特定方法对自身的行为、决策或输出进行自我评估和修正的过程。其核心目标是让模型具备“自我改进”能力，类似于人类完成任务后的复盘行为。

关键点：
- 自我监控：模型分析自身输出的合理性、逻辑性或事实准确性。
- 迭代优化：通过反馈循环（如重生成、修正错误）提升结果质量。
- 动态调整：根据任务需求调整生成策略（如创意性vs严谨性）。

2. 应用场景

场景	作用	示例
复杂推理	检测逻辑漏洞并修正推理步骤	数学证明、代码调试
事实核查	通过外部知识库验证生成内容的准确性	生成新闻报道时修正错误日期
对话系统	评估回复的连贯性和情感适宜性	避免冲突性回复，优化用户体验
创意生成	迭代改进故事/诗歌的结构和创意性	根据反馈调整叙事风格
教育领域	自动批改作业并解释错误原因	数学解题步骤的自我修正

3. 技术对比

技术	机制	优势	局限
Chain-of-Thought (CoT)	分步推理展示过程	提升复杂任务透明度	无法自动修正错误推理
Self-Refinement	生成→评估→迭代修正	动态优化输出质量	计算成本高，依赖评估标准
Retrieval-Augmented	结合外部知识实时验证	提高事实准确性	检索效率影响响应速度
Human-in-the-Loop	人工反馈指导模型修正	结果可靠性高	难以规模化
Auto-Critique	预设评估标准自动打分并修正	无需人工干预	标准设计可能过于僵化