【AI大模型】开源RAG框架汇总,收藏这一篇就够了!!

什么是RAG?

检索增强生成(Retrieval Augmented Generation),简称 RAG,已经成为当前最火热的LLM应用方案。经历今年年初那一波大模型潮,想必大家对大模型的能力有了一定的了解,但是当我们将大模型应用于实际业务场景时会发现,通用的基础大模型基本无法满足我们的实际业务需求,主要有以下几方面原因:

  • 知识的局限性:模型自身的知识完全源于它的训练数据,而现有的主流大模型(ChatGPT、文心一言、通义千问…)的训练集基本都是构建于网络公开的数据,对于一些实时性的、非公开的或离线的数据是无法获取到的,这部分知识也就无从具备。

  • 幻觉问题:所有的AI模型的底层原理都是基于数学概率,其模型输出实质上是一系列数值运算,大模型也不例外,所以它有时候会一本正经地胡说八道,尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的,因为它要求使用者自身具备相应领域的知识。

  • 数据安全性:对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。

而RAG是解决上述问题的一套有效方案。

RAG架构

RAG的架构如图中所示,简单来讲,RAG就是通过检索获取相关的知识并将其融入Prompt,让大模型能够参考相应的知识从而给出合理回答。因此,可以将RAG的核心理解为“检索+生成”,前者主要是利用向量数据库的高效存储和检索能力,召回目标知识;后者则是利用大模型和Prompt工程,将召回的知识合理利用,生成目标答案。

RAG架构

完整的RAG应用流程主要包含两个阶段:

  • 数据准备阶段:数据提取——>文本分割——>向量化(embedding)——>数据入库

  • 应用阶段:用户提问——>数据检索(召回)——>注入Prompt——>LLM生成答案

下面我们详细介绍一下各环节的技术细节和注意事项:

数据准备阶段:

数据准备一般是一个离线的过程,主要是将私域数据向量化后构建索引并存入数据库的过程。主要包括:数据提取、文本分割、向量化、数据入库等环节。

数据准备

  • 数据提取

  • 数据加载:包括多格式数据加载、不同数据源获取等,根据数据自身情况,将数据处理为同一个范式。

  • 数据处理:包括数据过滤、压缩、格式化等。

  • 元数据获取:提取数据中关键信息,例如文件名、Title、时间等 。

  • 文本分割:
    文本分割主要考虑两个因素:1)embedding模型的Tokens限制情况;2)语义完整性对整体的检索效果的影响。一些常见的文本分割方式如下:

  • 句分割:以”句”的粒度进行切分,保留一个句子的完整语义。常见切分符包括:句号、感叹号、问号、换行符等。

  • 固定长度分割:根据embedding模型的token长度限制,将文本分割为固定长度(例如256/512个tokens),这种切分方式会损失很多语义信息,一般通过在头尾增加一定冗余量来缓解。

  • 向量化(embedding):

向量化是一个将文本数据转化为向量矩阵的过程,该过程会直接影响到后续检索的效果。目前常见的embedding模型如表中所示,这些embedding模型基本能满足大部分需求,但对于特殊场景(例如涉及一些罕见专有词或字等)或者想进一步优化效果,则可以选择开源Embedding模型微调或直接训练适合自己场景的Embedding模型。

模型名称描述获取地址
ChatGPT-EmbeddingChatGPT-Embedding由OpenAI公司提供,以接口形式调用。https://platform.openai.com/docs/guides/embeddings/what-are-embeddings
ERNIE-Embedding V1ERNIE-Embedding V1由百度公司提供,依赖于文心大模型能力,以接口形式调用。https://cloud.baidu.com/doc/WENXINWORKSHOP/s/alj562vvu
M3EM3E是一款功能强大的开源Embedding模型,包含m3e-small、m3e-base、m3e-large等多个版本,支持微调和本地部署。https://huggingface.co/moka-ai/m3e-base
BGEBGE由北京智源人工智能研究院发布,同样是一款功能强大的开源Embedding模型,包含了支持中文和英文的多个版本,同样支持微调和本地部署。https://huggingface.co/BAAI/bge-base-en-v1.5
  • 数据入库:

数据向量化后构建索引,并写入数据库的过程可以概述为数据入库过程,适用于RAG场景的数据库包括:FAISS、Chromadb、ES、milvus等。一般可以根据业务场景、硬件、性能需求等多因素综合考虑,选择合适的数据库。

应用阶段:

在应用阶段,我们根据用户的提问,通过高效的检索方法,召回与提问最相关的知识,并融入Prompt;大模型参考当前提问和相关知识,生成相应的答案。关键环节包括:数据检索、注入Prompt等。

数据检索

  • 数据检索

常见的数据检索方法包括:相似性检索、全文检索等,根据检索效果,一般可以选择多种检索方式融合,提升召回率。

  • 相似性检索:即计算查询向量与所有存储向量的相似性得分,返回得分高的记录。常见的相似性计算方法包括:余弦相似性、欧氏距离、曼哈顿距离等。

  • 全文检索:全文检索是一种比较经典的检索方式,在数据存入时,通过关键词构建倒排索引;在检索时,通过关键词进行全文检索,找到对应的记录。

  • 注入Prompt

LLM生成

Prompt作为大模型的直接输入,是影响模型输出准确率的关键因素之一。在RAG场景中,Prompt一般包括任务描述、背景知识(检索得到)、任务指令(一般是用户提问)等,根据任务场景和大模型性能,也可以在Prompt中适当加入其他指令优化大模型的输出。一个简单知识问答场景的Prompt如下所示:

【任务描述】  
假如你是一个专业的客服机器人,请参考【背景知识】,回  
【背景知识】  
{content} // 数据检索得到的相关文本  
【问题】  
石头扫地机器人P10的续航时间是多久?

Prompt的设计只有方法、没有语法,比较依赖于个人经验,在实际应用过程中,往往需要根据大模型的实际输出进行针对性的Prompt调优。

本文搜集了一些开源的基于LLM的RAG(Retrieval-Augmented Generation)框架,旨在吸纳业界最新的RAG应用方法与思路。

RAG应用框架

  1. RAGFlow
  • 项目地址:https://github.com/infiniflow/ragflow

  • 简介:RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。

  • 特性:OCR、内置多种文档切分模板、文档切分可视化并且可修改、兼容多种文档数据类型

  • 架构:

  • 硬件要求:CPU >= 4 核、RAM >= 16 GB、Disk >= 50 GB、Docker >= 24.0.0 & Docker Compose >= v2.26.1

  1. QAnything
  • 项目地址:https://github.com/netease-youdao/QAnything

  • 简介:QAnything ( Q uestion based on Anything ) 是贡献支持任何格式文件或数据库的本地知识库问答系统,可断网安装使用。您的任何格式的本地文件都可以往里扔,即可获得准确、快速、靠谱的问答体验。

  • 特性:支持离线安装使用、跨语种问答粗排和精排的二阶段召回

  • 架构:

  • 硬件要求:最低CPU即可;使用GPU环境需要NVIDIA GPU Memory >= 4GB (use OpenAI API) & Docker Desktop >= 4.26.1(131620)

  1. open-webui
  • 项目地址:https://github.com/open-webui/open-webui

  • 简介:Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI,旨在完全离线操作。它支持各种 LLM 运行程序,包括 Ollama 和 OpenAI 兼容的 API。

  • 特性:原生支持Ollama支持安装和卸载模型支持多模态模型支持切换模型多用户管理

  • 架构:

  • 硬件要求:最低CPU即可,使用GPU环境需要NVIDIA GPU Memory >= 4GB (取决于使用Ollama的模型大小)

  1. FastGPT
  • 项目地址:https://github.com/labring/FastGPT

  • 简介:FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!

  • 特性:支持应用编排免登录分享支持接入飞书、企业微信等应用

  • 架构:

  • 硬件要求:CPU >= 2 核、RAM >= 4 GB用于安装数据库,GPU取决于使用的模型

  1. Langchain-Chatchat
  • 项目地址:https://github.com/chatchat-space/Langchain-Chatchat

  • 简介:基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。

  • 特性:算是比较早期的RAG框架了,使用的基本全是python的框架。该项目是一个可以实现完全本地化推理的知识库增强方案, 重点解决数据安全保护,私域化部署的企业痛点。支持市面上主流的本地大语言模型和Embedding模型,支持开源的本地向量数据库。本开源方案采用Apache License,可以免费商用,无需付费

  • 架构:

  • 硬件要求:对GPU要求较高

  1. MaxKB
  • 项目地址:https://github.com/1Panel-dev/MaxKB

  • 简介:MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。MaxKB = Max Knowledge Base,旨在成为企业的最强大脑。

  • 特性:开箱即用,支持直接上传文档、自动爬取在线文档;支持零编码快速嵌入到第三方业务系统;支持对接主流的大模型,包括 Ollama 本地私有大模型以及API调用

  • 架构:
    前端:Vue.js
    后端:Python / Django
    LangChain:LangChain
    向量数据库:PostgreSQL / pgvector
    大模型:Azure OpenAI、OpenAI、百度千帆大模型、Ollama、通义千问、Kimi、智谱 AI、讯飞星火

  • 硬件要求:
    操作系统:Ubuntu 22.04 / CentOS 7 64 位系统
    CPU/内存:推荐 2C/4GB 以上
    磁盘空间:100GB

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

### RAG框架概念 检索增强生成(Retrieval-Augmented Generation, RAG)是一种结合了传统信息检索技术和现代自然语言处理中的生成模型的方法。这种方法允许机器学习系统不仅依赖于训练数据内部的知识,还能动态访问外部知识源,在面对新问题时获取最新、最准确的信息[^4]。 RAG 技术特别适用于那些需要持续更新或扩展背景资料的任务场景,比如问答系统、对话代理以及文档摘要等应用。通过引入外部资源作为补充材料,可以有效地减少由纯神经网络预测带来的不确定性——即所谓的“幻觉”现象,从而提高输出内容的真实性和可靠性。 ### 开源实现汇总 #### 1. **RAGFlow** 作为一个新兴的开源项目,RAGFlow 致力于简化基于 RAG 架构的应用开发过程。此工具包提供了多个预先配置好的模块和支持自动化的工作流设计,使得开发者能更便捷地集成各种类型的数据库和服务接口,进而加速原型搭建和技术验证的速度[^2]。 - 显著特性: - 提供了一套完整的预构建组件; - 支持多种主流的数据存储方案; - 集成了先进的索引机制以优化查询效率; ```python from ragflow import PipelineBuilder pipeline = PipelineBuilder().add_retriever('elasticsearch').add_generator('transformers') ``` #### 2. **基于ChatGLM 和LangChain 实现的大规模离线部署方案** 这类解决方案专注于为企业级用户提供安全可控且高效的本地化部署选项。借助强大的中文理解能力(如 ChatGLM),再加上灵活易用的应用编程接口(APIs),这套组合拳可以在不连接互联网的情况下完成复杂的语义理解和响应生成任务[^3]。 ```bash git clone https://github.com/your-repo/chatglm-langchain.git cd chatglm-langchain pip install -r requirements.txt python app.py ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值