初步了解RAG:检索增强生成技术

在大语言模型(LLM)盛行的时代,RAG(Retrieval Augmented Generation,检索增强生成)的技术频繁崭露头角,让我们一同了解下什么是RAG 技术

一、RAG 是什么?

RAG 是检索技术与 LLM 提示的巧妙结合。想象一下,当我们向 LLM 提出一个问题(answer)时,RAG 会如同一位高效的信息调研员,从各种数据源中检索相关信息,并将这些检索到的信息与问题一同注入到 LLM 提示里,最后由 LLM 给出答案。这种方式打破了传统 LLM 仅依赖自身训练数据的局限,为模型的回答引入了更丰富、多元的信息。

二、RAG 解决的关键问题

1、知识局限性

目前主流的大模型,如 ChatGPT、文心一言、通义千问等,其知识完全来源于训练数据。而这些训练集大多构建于网络公开数据,对于实时性信息、非公开数据或离线数据,模型往往无能为力,导致在某些场景下知识储备不足。RAG 通过从外部数据源检索信息,有效地弥补了这一缺陷,让模型能够获取更全面、更及时的知识。

2、幻觉问题

所有 AI 模型基于数学概率的底层原理,使得其输出本质上是数值运算的结果。大模型也难以避免出现 “一本正经地胡说八道” 的情况,特别是在其不熟悉的领域或知识欠缺的场景。并且,识别这种幻觉问题对使用者自身知识储备要求较高。RAG 借助外部检索的真实信息,为模型提供可靠的参考依据,减少幻觉问题的出现。

3、数据安全性

对于企业而言,数据安全是重中之重。没有企业愿意冒险将私域数据上传至第三方平台进行训练,以免造成数据泄露。RAG 可以在企业内部搭建外部知识库,利用企业自有数据进行检索,在保障数据安全的前提下,提升模型对企业特定领域知识的处理能力。

三、RAG技术过程

1、检索

这是 RAG 的信息收集阶段。当用户输入查询内容后,系统会将其通过嵌入模型转换为向量形式。这就好比给查询内容贴上了一种特殊的 “标签”,方便与向量数据库中存储的相关知识进行比对。随后,通过相似性搜索算法,系统会找出与查询最匹配的前 K 个数据,这些数据便是后续生成答案的重要参考信息。

2、索引

在索引过程中,系统首先会将相关文档切分成段落,这有助于更精准地定位和提取信息。然后,计算每个段落的 Embedding 向量,并将其保存到向量库中。当用户进行查询时,用户问题同样会以相似的方式计算 Embedding 向量。通过这种方式,系统能够快速在向量库中找到与用户问题相关度高的段落信息。

3、生成

在生成阶段,系统会将用户的查询内容与检索到的相关知识,一同嵌入到一个预设的提示词模板中,这一步实现了检索增强的关键操作。经过检索增强的提示词内容被输入到大型语言模型中,模型依据这些丰富的信息生成所需的输出,为用户提供更准确、更有价值的答案。

RAG的主要组成,依次是数据提取——embedding(向量化)——创建索引——检索——自动排序(Rerank)——LLM归纳生成

RAG 技术以其独特的架构和功能,为我们在使用 LLM 时遇到的知识局限、幻觉及数据安全等问题提供了创新的解决方案。

学习资料:

《大模型RAG含高级方法https://www.zhihu.com/tardis/zm/art/675509396?source_id=1003

图解高级RAG技术https://zhuanlan.zhihu.com/p/674755232

RAG的介绍——从架构到技术细节https://luxiangdong.com/2023/09/25/ragone/

高级RAG技术学习笔记

https://www.aneasystone.com/archives/2024/06/advanced-rag-notes.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值