书生大模型实战营闯关记录----第五关：LlamaIndex+Internlm2 RAG实践Demo：效果对比，文档加载，向量库构建，检索器，模型推理

最新推荐文章于 2025-04-25 14:13:42 发布

Ace_bb

最新推荐文章于 2025-04-25 14:13:42 发布

阅读量1.2k

点赞数 21

分类专栏：书生大模型实战营文章标签： RAG LlamaIndex LLM

本文链接：https://blog.youkuaiyun.com/Ace_bb/article/details/140903402

版权

文章目录

本文将分为以下几个部分来介绍，如何使用 LlamaIndex 来部署 InternLM2 1.8B并实现RAG功能。

前置知识
环境、模型准备
LlamaIndex HuggingFaceLLM
LlamaIndex RAG

1. 前置知识

RAG背景

给模型注入新知识的方式，可以简单分为两种方式，一种是内部的，即更新模型的权重，另一个就是外部的方式，给模型注入格外的上下文或者说外部信息，不改变它的的权重。
第一种方式，改变了模型的权重即进行模型训练，这是一件代价比较大的事情，大语言模型具体的训练过程，可以参考InternLM2技术报告。第二种方式，并不改变模型的权重，只是给模型引入额外的信息。
在这里插入图片描述

对比两种注入知识方式，第二种更容易实现。RAG正是这种方式。它能够让基础模型实现非参数知识更新，无需训练就可以掌握新领域的知识。本次课程选用了LlamaIndex框架。LlamaIndex 是一个上下文增强的 LLM 框架，旨在通过将其与特定上下文数据集集成，增强大型语言模型（LLMs）的能力。它允许您构建应用程序，既利用 LLMs 的优势，又融入您的私有或领域特定信息。

在RAG中有五个关键阶段，这些阶段将成为你构建的任何更大应用程序的一部分。这些阶段包括：

加载：这指的是从数据源（无论是文本文件、PDF、另一个网站、数据库或API）获取你的数据并将其放入你的流水线中。LlamaHub 提供了数百个可供选择的连接器。
索引：这意味着创建一个允许查询数据的数据结构。对于LLM来说，这几乎总是意味着创建向量嵌入，即你的数据含义的数值表示，以及许多其他元数据策略，使其易于准确找到上下文相关的数据。
存储：一旦你的数据被索引，你几乎总是希望存储你的索引，以及其他元数据，以避免重新对其进行索引。
查询：对于任何给定的索引策略，你可以利用LLM和LlamaIndex数据结构进行查询的许多方式，包括子查询、多步查询和混合策略。
评估：在任何流水线中的一个关键步骤是检查它相对于其他策略的有效性，或者当你进行更改时。评估提供了关于你对查询的响应有多准确、忠实和快速的客观度量。

RAG 效果比对

如图所示，由于xtuner是一款比较新的框架， InternLM2-Chat-1.8B 训练数据库中并没有收录到它的相关信息。左图中问答均未给出准确的答案。右图未对 InternLM2-Chat-1.8B 进行任何增训的情况下，通过 RAG 技术实现的新增知识问答。
在这里插入图片描述

2. 环境、模型准备

2.1 配置基础环境

这里以在 Intern Studio 服务器上部署LlamaIndex为例。

进入开发机后，创建新的conda环境，命名为 llamaindex，在命令行模式下运行：

conda create -n llamaindex python=3.10

复制完成后，在本地查看环境。

conda env list

结果如下所示。

# conda environments:
#
base                  *  /root/.conda
llamaindex               /root/.conda/envs/llamaindex

运行 conda 命令，激活 llamaindex 然后安装相关基础依赖
python 虚拟环境:

conda activate llamaindex
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia

安装python 依赖包

pip install einops
pip install  protobuf

环境激活。

2.2 安装 Python环境和依赖包

安装Python3.10版本的Anaconda虚拟环境和相关的包

conda create -n llamaindex python=3.10
conda activate llamaindex
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install einops
pip install  protobuf
pip install llama-index==0.10.38 llama-index-llms-huggingface==0.2.0 "transformers[torch]==4.41.1" "huggingface_hub[inference]==0.23.1" huggingface_hub==0.23.1 sentence-transformers==2.7.0 sentencepiece==0.2.0

2.3 下载 Sentence Transformer 模型

源词向量模型 Sentence Transformer:（我们也可以选用别的开源词向量模型来进行 Embedding，目前选用这个模型是相对轻量、支持中文且效果较好的，同学们可以自由尝试别的开源词向量模型）
运行以下指令，新建一个python文件，贴入以下代码
然后，执行该脚本即可自动开始下载：

cd /root/llamaindex_demo
conda activate llamaindex
python download_hf.py

更多关于镜像使用可以移步至 HF Mirror 查看。

2.4 下载 NLTK 相关资源

我们在使用开源词向量模型构建开源词向量的时候，需要用到第三方库 nltk 的一些资源。正常情况下，其会自动从互联网上下载，但可能由于网络原因会导致下载中断，此处我们可以从国内仓库镜像地址下载相关资源，保存到服务器上。
我们用以下命令下载 nltk 资源并解压到服务器上：

最低0.47元/天解锁文章