本文详细介绍了检索增强生成(RAG)技术,这是一种利用企业专有数据增强开源预训练模型的方法,无需重新训练即可创建特定领域的LLM。文章探讨了RAG的工作流程、标准解决方案架构、相关技术以及在实际应用中的计算需求、数据隐私和安全性考量,并特别介绍了英特尔在RAG优化方面的技术贡献。

1、检索增强生成 (RAG) 是什么?
RAG 技术将动态、依赖查询的数据添加到模型的提示流中,再从存储在矢量数据库中的专有知识库中检索相关数据。提示和检索到的上下文可以丰富模型的输出,从而带来更加相关和准确的结果。因为数据不会被发送给管理模型的第三方,因此,RAG 可让企业在保护数据隐私性和完整性的同时更好地通过 LLM 充分利用数据。RAG 工作流程的关键构成可简单分为四个步骤:用户查询处理、检索、上下文整合和输出生成。下图展示了这一基本流程。

RAG 的实用性不仅限于文本,它还可以极大地改变视频搜索和交互式文档探索的方式,甚至使聊天机器人能够利用 PDF 内容来回答问题。
RAG 的应用过程通常被称为“RAG 管线”,因其从用户提示开始,整个数据处理流程都是一致的。用户提示首先进入关键步骤“检索机制”中。在这一步,相关提示会被转换为矢量嵌入,接着使用矢量搜索在预先构建的矢量数据库(如 PDF、日志、转录文本等)中找到相似的内容。检索到最相关的数据后,RAG 会将其与用户提示整合,然后传送给模型用于推理服务和最终输出生成。这种上下文整合为模型提供了在预训练阶段无法获得的额外信息,使模型能够更好地契合用户的任务或兴趣领域。由于 RAG 无需重新训练或调优模型,因此能够高效地添加数据来为 LLM 提供上下文。
2、标准RAG解决方案的架构
下图所示的 RAG 解决方案架构展示了标准 RAG 实施方案的构建模块。RAG 实施流程主要包括构建知识库、查询和上下文检索、响应生成和跨应用产出监控几个核心部分。

1、构建知识库:
• 数据收集:从基于文本的来源(如转录文本、PDF 和数字化文档)中收集数据建立私有知识库。
• 数据处理管线:利用特定 RAG 管线来提取文本、格式化内容以进行处理,并将数据分块成可管理的大小。
• 矢量化:通过嵌入模型处理数据块,将文本转换为矢量,可包括用于丰富上下文的元数据。
• 矢量数据库存储:将矢量化数据存储在可扩展的矢量数据库中,以便进行高效检索。
2、查询和上下文检索:
• 查询提交:用户或子系统通过聊天式界面或 API 调用提交查询,并通过安全服务进行身份验证。
• 查询处理:采取输入保护措施来确保安全性和合规性,然后进行查询矢量化。
• 矢量搜索和重排序:进行初始矢量搜索以检索相关矢量,然后使用更复杂的模型重排序以优化结果。
3、响应生成:
• LLM 推理和响应生成:将顶层上下文与用户查询结合,再通过预训练或调优的 LLM 进行处理,然后再进行后处理以提升质量和增强安全性。
• 响应交付:通过界面将最终响应返回给用户或子系统,确保答案的连贯性和上下文准确性。
4、产出监控:
• 检索性能:监控检索过程的时延和准确性,并保留记录以用于审核。
• 重排序的效率:跟踪重排序的表现,确保上下文相关性和速度。
• 推理服务质量:观察 LLM 推理的时延和质量,维护日志以便审核和改进。
• 安全防护有效性:监控输入和输出处理的安全防护 (guardrail),确保合规性和内容安全性。
3、RAG相关技术
开发 RAG 应用通常会从集成 RAG 框架开始,例如 Haystack、LlamaIndex、LangChain 和英特尔研究院的fastRAG。这些框架可通过提供优化和集成关键的 AI 工具链来简化开发过程。目的是减少开发人员对大量低级别编程的需求。这种抽象使得开发人员能够利用增强的性能和针对其特定用例量身定制的解决方案,专注于高效构建 RAG 应用。
我们从知识库构建、查询和上下文检索以及响应生成这三个关键步骤来考量 RAG 工具链。通常,RAG 框架提供涵盖整个工具链的 API。不管是选择使用这些抽象,还是选择利用独立组件,都需要深思熟虑并从工程角度慎重考虑。

1、构建知识库+上下文检索:
• 集成框架:Haystack 和 LangChain 作为常见 RAG 框架,为矢量数据库和搜索算法提供了高级抽象,使得开发人员能够在基于 Python 的环境中管理复杂的过程。
• 矢量数据库技术:Pinecone、Redis 和 Chroma 是支持主流搜索算法的关键矢量数据库解决方案。英特尔研究院提供的可扩展矢量搜索 (Scalable Vector Search, SVS) 技术也很有发展前景,预计将在 2024 年初与各大矢量数据库集成。
• 嵌入和模型可访问性:通过 Hugging Face API 进行集成的嵌入模型往往可无缝整合到 RAG 框架中。这大大提升了纳入先进自然语言处理 (NLP)的简便性。
2、响应生成:
• 低级别优化:oneAPI 高性能库可以优化 PyTorch、TensorFlow 和 ONNX等主流 AI 框架,因此您可以使用熟悉的开源工具,因为它们已针对英特尔硬件进行了优化。
• 高级推理优化:英特尔 Extension for PyTorch 等扩展添加了高级量化推理技术,可助力提升了大语言模型的性能。
4、RAG应用与落地
RAG 管线的许多步骤需要耗费大量计算资源,而同时,终端用户又对低时延响应有着较高要求。此外,由于 RAG经常用于处理机密数据,因此整个管线的安全性都至关重要。
计算需求
一般来说,LLM 推理是 RAG 管线计算最密集的阶段,特别是在实时应用环境中。然而,创建初始知识库(处理数据和生成嵌入)对计算的需求同样可能很高(取决于数据的复杂性和体量)。英特尔在通用计算技术、AI 加速器和机密计算方面的进步为应对整个 RAG 管线的计算挑战提供了重要基石,同时还能提高数据隐私和安全性。
和大多数软件应用一样,RAG 也能从专为满足终端用户事务需求而量身定制的可扩展基础设施中受益。随着事务需求的增加,开发人员可能会因计算基础设施负载过重而面临时延增加,且基础设施还会因矢量数据库查询和推理计算而趋于饱和。因此,获得随时可用的计算资源来扩展系统和快速处理新增需求对企业至关重要。另外,实施关键优化以提升诸如嵌入生成、矢量搜索与推理等关键步骤的性能也非常重要。
数据隐私和安全性
• 安全 AI 处理:英特尔软件防护扩展(英特尔SGX)和英特尔(英特尔® TDX)在处理过程中在 CPU 内存中进行机密计算和数据加密,提高了数据安全性。这些技术对于处理敏感信息至关重要,有助于利用管线各部分的加密数据创建更安全的 RAG 应用。
对于需要在矢量嵌入生成、检索或推理过程中更安全地处理敏感数据的 RAG 应用来说,这是一个重要特性。
• 采取适当防护:在 RAG 应用中,防护涉及采取措施来管理 LLM在 RAG 系统内的行为。这包括监控模型的响应、帮助遵守指导原则和最佳实践,以及控制其输出来降低毒性、不公平偏见和隐私泄露的风险。在 RAG 应用中采取防护措施有助于 LLM 得到用户的信任和负责任的运用,同时符合系统的整体目标和要求。
开源优化
嵌入优化
• 量化嵌入模型:英特尔® 至强® 处理器可以利用量化嵌入模型来优化从文档中生成矢量嵌入的过程。例如,bge-small-en-v1.5-rag-int8-static 是一个使用英特尔 Neural Compressor 进行量化的 BAAI/BGE-smallen-v1.5 版本,与 Optimum-Intel 兼容。按照 Massive Text Embedding Benchmark (MTEB) 性能指标计算,使用量化模型进行检索和重排序任务时,浮点 (FP32) 和量化 INT8 版本之间的差异小于 2%,同时提高了吞吐量。
矢量搜索优化
• 针对 CPU 优化的工作负载:在英特尔® 至强® 处理器上,矢量搜索操作得到了高度优化,特别是在第三代及以后的处理器中引入了英特尔高级矢量扩展 512(英特尔AVX-512)之后。英特尔® AVX-512 利用融合乘加 (FMA) 指令,将乘法和加法合并为一个运算,从而增强了内积计算,这是矢量搜索中的一个基本运算。这一功能减少了计算所需的指令数量,显著提高了吞吐量和性能。
• 可扩展矢量搜索 (SVS):可扩展矢量搜索 (SVS) 技术提供快速的矢量搜索能力,可助力优化检索时间并提升整体系统性能。它通过使用局部自适应矢量量化 (LVQ) 来优化基于图形的相似度搜索,在保持准确性的同时尽可能降低内存带宽要求。其结果是显著减少了距离计算时延,并在吞吐量和内存要求方面获得了更好的表现。

推理优化
RAG 主要涉及推理运算,这一过程可由英特尔® 至强® 处理器通过先进的模型压缩技术提供支持。这些技术支持在较低精度(BF16 和 INT8)下进行运算,并且不会造成明显的性能损失。在本节中,我们将简要介绍各种针对推理的优化和机会。
• 英特尔® 高级矩阵扩展(AMX):第四代和第五代英特尔® 至强® 可扩展处理器内置英特尔AMX,能够提高矩阵运算的效率并优化内存管理。

• 先进的开源推理优化工具:英特尔贡献并扩展了主流深度学习框架,如PyTorch、TensorFlow、Hugging Face、DeepSpeed 等。对于 RAG工作流程,英特尔关注的是通过实施量化等模型压缩技术来优化 LLM 的机会。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】


为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】


被折叠的 条评论
为什么被折叠?



