企业使用大语言模型LLM+RAG落地的优势与问题

最新推荐文章于 2025-02-26 17:13:09 发布

Python程序员罗宾

最新推荐文章于 2025-02-26 17:13:09 发布

阅读量1.1k

点赞数 10

文章标签：语言模型人工智能自然语言处理数据库金融 pdf java

本文链接：https://blog.youkuaiyun.com/aolan123/article/details/144031264

版权

一、前言

在LLM大模型落地到具体的场景中时，经常会感觉，大模型给出的答案比较泛、通用、无法结合私有知识有针对性的回答、有幻觉。为了改善这些问题，企业落地时通常有3种主流方案：调Promot、RAG、微调。这3种方案，理论上效果会越来越好，但成本也会越来越高，由此目前普遍的做法是从左到右依次尝试。

前排提示，文末有大模型AGI-优快云独家资料包哦！

二、什么是RAG?

RAG 是检索增强生成（Retrieval Augmented Generation） 的简称，是一套能改善上述问题的有效方案。

LLM+RAG结合了大语言模型和信息检索技术。具体来说，当模型需要生成文本或者回答问题时，会先从一个权威的、预先确定的、庞大的知识文档集中检索出相关片段信息，然后由大模型利用这些信息指导文本的生成，从而提高预测的质量和准确性。

三、RAG的优势

1、减少幻觉

LLM问题：大模型的原理是“文字接龙”，也就是基于数学概率预测后面要输出的文字，这导致了大模型输出结果存在幻觉的问题。

RAG优势：通过使用外部知识库来生成回答，会减少其虚构、瞎编、误导的问题，提高了信息的准确性和可靠性。

2、 实时更新

LLM问题：大模型本身训练的数据是静态的，当前主流的大模型（比如 ChatGPT、通义千问、文心一言…）的训练集基本都是抓取网络公开数据，所以大模型所掌握的知识存在截止日期，也不具备实时性的、非公开的知识。

RAG优势：能够实时访问最新的外部知识，保持知识的时效性。

3、 可解释性

LLM问题：大模型输入输出充满了不确定性，缺乏可解释性、黑盒问题。

RAG优势：生成的每个答案都能追溯到具体的外部数据源，增加了其可信度、可解释性和可追溯性。

4、安全性

LLM问题：企业都不愿意泄露自己的私域数据，因此很难同意传给别人训练。

RAG优势：不需要重训，因此可以针对安全要求设计调整对应的系统，使得符合企业要求。

5、灵活性

LLM问题：大模型一旦训练完成，再调整的周期和成本就是很高的。

RAG优势：具有较高的可扩展性，可较为灵活的集成更多工具、更新数据等来增强，或适配其他场景。

四、RAG的问题

然而，RAG并不是一副一劳永逸的灵丹妙药，他可能需要根据场景的要求，不断迭代调整。也不是一把万能钥匙，不能解决所有的问题，更多的情况下，是可以“较快给出答案”，“早期介入场景”的方案。

有篇论文总结了可能会出现的7种情况，在企业实际落地时也会出现，在这里我也结合实践经验，总结下：

1、答案内容缺失

情况：知识库中根本就不包含正确的答案

模型表现：模型在好的情况下，会回复“抱歉，我不知道”；但也可能会瞎答；甚至是也被欺骗，一本正经的给出看似正确的答案，尤其是与内容相关，但实际没有答案的问题。

用户感受：回答错误；不能实事求是的告诉我，你没找到，还可能对我造成误导

2、关键文档排序靠后

情况：包含用户最认可答案的文档被找到了，但由于所有相关文档都会被排序，它被排在了后面。

模型表现：基于性能考虑，系统往往实际上只会引用排名前N个找到的文档，所以无法返回靠后的内容

用户感受：回答不准/有遗漏且没有引用到关键文档

3、超出上下文

情况：答案所在的文档被检索出来了，排名也在前N，但从数据库中返回的文档太多了。

模型表现：大模型生成回答时，由于文档数量太多，可能多到超出或接近大模型上下文限制时，大模型会忽视或丢失一部分文档，没有把它放到上下文中生成答案。

用户感受：回答不准/有遗漏

4、信息过载难提炼

情况：答案所在的文档被检索出来了，排名也在前N，返回的文档数量也还行，但是包含的信息量太大了/上下文矛盾。

模型表现：模型生成的上下文会包含答案，但模型面对信息过载/矛盾时，难以准确提炼出的用户想要的答案，影响回答的质量。

用户感受：回答不准

5、格式错误

情况：明明已经给大模型发出指令：“指定格式”（比如列表）来提取信息

模型表现：就是忽视这个指令，不按要求来。

用户感受：回答不准/有遗漏

6、不够全面

情况：常见于问题比较笼统，或意图不清晰，或本身就具有多意图，但用户又认为得按某种指定的意图回答才算对

模型表现：回答不能算错，回的比较笼统。但回答不到用户的“心趴趴上”（可能需要多次追问）

用户感受：回答不准/有遗漏

7、不够细节

情况：问题太复杂，或者信息量太多，比如“A、B、C”中的要点分别是什么？

模型表现：回答没错，但回答的不完整，细节不够（最好拆开来，分别询问）

用户感受：回答不准/有遗漏

论文：《Seven Failure Points When Engineering a Retrieval Augmented Generation System》

概要：通过三个不同领域的案例研究，总结分享了 RAG 系统遇到的7个经验教训。

地址：‍https://arxiv.org/abs/2401.05856

论文原文：