大模型还能产生幻觉?一文讲清楚原理和解决方法

“像我们这样相信物理学的人都知道,过去、现在和未来之间的区别只是一种顽固执着的幻觉。换句话说,时间是一种幻觉。”

——波尔

幻觉,即一种看似真,实为假的感受。最近接触到了一个概念:大模型幻觉。有点好奇,大模型还能产生幻觉?于是查找了一些资料,开始了解。

一、大模型幻觉,像你身边那个爱吹牛的熟人

关于大模型幻觉,官方一点的说法是这样的:

大模型的幻觉问题,即Hallucination,指模型基于有限元素和强大的语言表达能力生成逻辑上似乎合理但实际不符合已知常识的描述。幻觉可能由错误数据、训练过程失误、推理错误等多种原因触发。

直白来说,大模型幻觉就是一本正经地胡说八道。它就好像饭桌上,那个爱吹牛的熟人,推杯换盏间,嘴里几句真话、几句假话,不得而知。

二、幻觉,是大模型的“通病”

2023年,一名联邦法官对纽约市的一家律师事务所处以 5000 美元罚款。原因是该所的一名律师,使用ChatGPT 起草了一起人身伤害案件的摘要,而里面捏造了六个以上的案例。

斯坦福大学和耶鲁大学的研究人员在关于三种流行的大语言模型(LLM)的研究预印本中发现,类似的错误在人工智能生成的法律输出里极为普遍。

无论是哪种大模型,都会出现不同程度的“幻觉”。其症状的轻重,与科技公司的实力相关。

一般来说,大模型幻觉分为两大类:事实性幻觉和忠实性幻觉

事实性幻觉强调生成的内容与可验证的现实世界事实之间的差异。其通常表现为事实不一致或捏造。比如说回答历史事件的具体时间或人物关系时出现错误。

忠实幻觉是指生成内容与用户构思或输入所提供上下文的差异,以及生成内容内部的自我一致性。例如要求总结某一篇文章的主要内容,但模型生成的总结包含了原文中没有提到的观点或信息。

三、大模型幻觉从何而来?

OpenAI华人科学家翁荔,在她最新的Blog中提到:产生幻觉的原因包括预训练数据问题和微调新知识问题

  • 预训练数据问题:使用的这些数据通常是从公共互联网抓取来的,可能存在数据太陈旧、某些关键部分缺失或者本身就是错误的。导致模型在学习这些数据时,记错了信息。
  • 微调:大模型引入新知识时,但模型学习新知识较慢,导致更容易产生幻觉。

LLM-Hallucination-2

四、大模型幻觉会停止吗?

不会。在《 hallucination is inevitable: an innate limitation of large language models》实验论文中,给出了一个基本结果:即无论模型架构、学习算法、提示技术或训练数据如何改变,对于任何可计算的LLM来说,幻觉是不可避免的

亚利桑那州立大学研究人工智能的教授 Subbarao Kambhampati,对此也说道:“所有计算机生成的创造力在某种程度上都是幻觉。”

此外许多机器学习专家也不认为幻觉是可以修复的。比如微软研究院和佐治亚理工学院发表的《 Calibrated Language Models Must Hallucinate》研究表示:经过校准的语言模型必然会出现幻觉。

所以从技术层面来说,由于现实世界问题的多样复杂性,无论如何训练大模型,总会存在超出模型能力的可解决问题。

五、如何应对“幻觉”?

“幻觉”虽不会停止,但我们可以尽可能地减轻幻觉。

对于我们普通使用者来说,减轻幻觉的一个直接方法是:调教你的AI,并对其保持批判的态度

  1. 不依赖单一来源:不要只依赖大模型作为获取信息的唯一来源,尝试结合多个渠道的信息进行综合判断。
  2. 保持批判性思维:对大模型的输出保持警惕,思考其合理性和逻辑性,查验它给的信息。
  3. 选择可靠的平台和工具:比如大厂的模型,通常实力更强,幻觉也会更少。

技术层来说,减少LLM幻觉的技术方法包括:

  1. 高等提示词:通过编写更具体的提示词,如多事例学习,以及使用新的工具来优化提示词,管束LLM的幻觉问题。
  2. Meta AI的Chain - of - Verification(CoVe):将事实核对分解为可管理的步骤,通过生成初始响应、组织验证问题、独立回答这些问题并生成最终经过验证的响应,来减少LLM的幻觉情况,提高响应正确性。
  3. 知识图谱:将知识图谱集成到RAG中,利用其结构化且相互关联的数据,增强当前RAG系统的推理能力。
  4. Raptor:通过建立更高层次的抽象来处理跨多个文档的问题,先从外部知识库中检索相关且经过验证的信息,然后将这些数据与原始查询一同嵌入到模型中,减少幻觉现象。
  5. 共形抽离:通过应用共形猜想技术来确定模型何时应该停止给出响应,从而减少大型语言模型(LLMs)中的幻觉情况。
  6. RAG削减结构化输入中的幻觉情况:ServiceNow通过RAG在生成文本之前从外部知识库中检索相关的JSON对象,确保生成过程基于正确且相关的数据,减少幻觉情况。

LLM-Hallucination-3

六、大模型幻觉,造梦的工具

读到这里,你会觉得这篇文章的内容都是正确的吗?不是的,有一点我其实在瞎说:开头的那句话并不是物理学家波尔说的,而是爱因斯坦。没有看过原句的朋友,肯定会把它当真的,然后可能用在别处。

大模型会产生幻觉,人也会,人的交流也并不是百分百的准确和真实,所以我们也不用对大模型幻觉太过紧张。不过对于需要运用数据分析等严谨的工作来说,的确不建议依赖大模型,因为这需要自己具有出色的筛选和辨别大模型给出数据真假的能力,这非常考验个人能力素养。

换个角度来看,大模型幻觉也有好处:对于一些需要“造梦”或者说“创造性”的内容来说,创意大于准确性,而幻觉正好可以提供很多灵感

Subbarao Kambhampati 教授也说道:“今天的 LLM 从来都不是为了纯粹准确而设计的。它们被创造出来是为了创造——为了生成。”

如果你觉得文章不错,欢迎关注「敏捷开发」。后续会分享更有有趣的行业知识。

<think>嗯,用户之前问了关于高效数据准备的方法,现在又转向大模型微调的成本问题,为什么会这样呢?可能他们在实际项目中遇到了成本与效果的权衡问题。首先,我需要确认用户的问题核心:虽然微调成本高,但为什么人们还是选择微调? 用户可能对微调的必要性不太理解,或者想寻找替代方案。这时候我需要解释微调的价值,以及它与其他方法(比如提示工程)的区别。可能用户认为预训练模型已经足够,但实际应用中特定任务需要更精准的适应。 接下来,我需要考虑用户的背景。他们可能从事数据科学或机器学习,对模型调优有一定了解,但对成本效益分析不太清楚。需要从实际应用场景出发,举例说明微调的优势,比如医疗、法律等领域需要专业术语,这时候微调能提升效果。 还要分析用户可能的误解,比如认为微调是唯一选择,但其实还有其他方法。所以需要比较微调与其他方法的优缺点,帮助用户全面了解。同时,提到降低成本的技术,如参数高效微调(PEFT)、LoRA等,让用户知道有节省成本的途径。 另外,用户可能担心成本过高导致项目不可行,所以需要给出实际案例,说明在某些情况下,微调带来的效益远超成本,比如客服自动化中的准确率提升,减少人工干预。还要提到云服务技术发展如何降低微调的门槛。 最后,确保回答结构清晰,分点说明原因,结合例子技术,让用户既理解必要性,又知道如何降低成本。同时,注意语言要口语化,避免过于学术,保持自然流畅。</think>是的,大模型微调(Fine-tuning)的成本确实较高,尤其是在训练参数量庞大的模型(如GPT-3、LLaMA等)时,需要消耗大量计算资源时间。但微调仍然被广泛使用,**核心原因在于:它能显著提升模型在特定任务或领域的效果**。以下是具体解释: --- ### **一、为什么需要微调?** 1. **解决领域适配问题** 预训练大模型(如ChatGPT)具备通用知识,但对垂直领域(如医疗、法律、金融)的专业术语、逻辑理解不足。例如: - 直接使用通用模型分析医学影像报告,可能忽略专业缩写(如“MRI”的上下文含义)。 - 微调后,模型能更准确理解领域术语任务目标。 2. **任务特定输出格式** 许多场景需要严格的输出结构(如生成JSON、表格或特定代码)。微调可以强制模型遵循格式规范,减少后处理成本。 3. **控制模型行为** 通过微调修正模型的“不良习惯”(如过度泛化、幻觉、不符合业务规则的回答)。 --- ### **二、微调 vs. 其他低成本方法** 虽然存在低成本替代方案(如提示工程、RAG),但它们有局限性: | **方法** | **优势** | **缺点** | |---------|---------------------------------------| | **提示工程** | 零训练成本,快速迭代 | 对复杂任务效果有限,依赖提示词设计技巧 | | **RAG(检索增强)**| 结合外部知识,减少幻觉 | 依赖检索质量,实时性可能不足 | | **微调** | 任务效果最优,可控性强 | 成本高,需标注数据 | **适用场景对比**: - **简单任务**(如分类、摘要):提示工程或RAG可能足够。 - **复杂任务**(如法律合同生成、医学诊断支持):必须微调。 --- ### **三、如何降低微调成本?** 为平衡效果与成本,业界常用以下技术: 1. **参数高效微调(PEFT)** - **LoRA/LoRA+**:仅训练低秩矩阵适配下游任务,减少参数量(节省50%以上显存)。 - **Adapter**:在模型层间插入小型网络,冻结原模型参数。 - **QLoRA**:结合量化(4-bit)与LoRA,可在单卡上微调650亿参数模型(如LLaMA-2)。 ```python # 使用Hugging Face PEFT库实现LoRA微调 from peft import LoraConfig, get_peft_model config = LoraConfig(r=8, lora_alpha=32, target_modules=["q_proj", "v_proj"]) model = get_peft_model(base_model, config) # 仅微调1%参数 ``` 2. **数据优化** - **高质量小样本数据**:通过主动学习筛选关键样本(如1000条高质量标注数据 > 10万条噪声数据)。 - **合成数据**:用大模型生成训练数据(如GPT-4生成问答对)。 3. **分布式训练与量化** - **DeepSpeed/FSDP**:分布式训练框架,降低显存占用。 - **8-bit/4-bit量化**:牺牲少量精度换取显存大幅下降。 --- ### **四、微调的实际收益案例** 1. **客服场景** - **问题**:通用模型回答模糊,无法调用内部API查询订单。 - **微调后**:回答准确率从65%提升至92%,并学会结构化输出订单号、日期等信息。 2. **代码生成** - **问题**:通用模型生成的代码不符合企业编码规范。 - **微调后**:代码通过率从70%提升至98%,且自动添加公司版权声明。 --- ### **五、何时需要微调?** 决策时可参考以下条件: 1. **任务复杂度高**:需要深度领域知识或复杂逻辑。 2. **数据充足**:拥有至少数百条高质量标注数据。 3. **长期需求**:任务稳定,避免频繁重新训练。 --- ### **六、替代方案补充** 如果成本确实无法承受,可考虑: 1. **混合策略**:对核心功能微调,非核心功能使用提示工程。 2. **云服务微调**: - 使用AWS SageMaker、Google Vertex AI等按需付费服务,避免自建GPU集群。 - 调用API微调(如OpenAI的Fine-tuning API,成本约$0.03/千token)。 --- ### **总结** 尽管微调成本高,但其在效果提升、可控性上的优势难以替代。通过参数高效微调(PEFT)、数据优化分布式技术,成本已大幅降低。例如,某金融公司使用QLoRA微调LLaMA-2-70B,仅需8小时1块A100,即实现风险报告生成任务的准确率从78%提升至95%。**关键在于权衡:任务价值是否值得投入成本?**
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值