文章目录
本文将分为以下几个部分来介绍,如何使用 LlamaIndex 来部署 InternLM2 1.8B并实现RAG功能。
- 前置知识
- 环境、模型准备
- LlamaIndex HuggingFaceLLM
- LlamaIndex RAG
1. 前置知识
RAG背景
给模型注入新知识的方式,可以简单分为两种方式,一种是内部的,即更新模型的权重,另一个就是外部的方式,给模型注入格外的上下文或者说外部信息,不改变它的的权重。
第一种方式,改变了模型的权重即进行模型训练,这是一件代价比较大的事情,大语言模型具体的训练过程,可以参考InternLM2技术报告。第二种方式,并不改变模型的权重,只是给模型引入额外的信息。
对比两种注入知识方式,第二种更容易实现。RAG正是这种方式。它能够让基础模型实现非参数知识更新,无需训练就可以掌握新领域的知识。本次课程选用了LlamaIndex框架。LlamaIndex 是一个上下文增强的 LLM 框架,旨在通过将其与特定上下文数据集集成,增强大型语言模型(LLMs)的能力。它允许您构建应用程序,既利用 LLMs 的优势,又融入您的私有或领域特定信息。
在RAG中有五个关键阶段,这些阶段将成为你构建的任何更大应用程序的一部分。这些阶段包括:
-
加载:这指的是从数据源(无论是文本文件、PDF、另一个网站、数据库或API)获取你的数据并将其放入你的流水线中。LlamaHub 提供了数百个可供选择的连接器。
-
索引:这意味着创建一个允许查询数据的数据结构。对于LLM来说,这几乎总是意味着创建向量嵌入,即你的数据含义的数值表示,以及许多其他元数据策略,使其易于准确找到上下文相关的数据。
-
存储:一旦你的数据被索引,你几乎总是希望存储你的索引,以及其他元数据,以避免重新对其进行索引。
-
查询:对于任何给定的索引策略,你可以利用LLM和LlamaIndex数据结构进行查询的许多方式,包括子查询、多步查询和混合策略。
-
评估:在任何流水线中的一个关键步骤是检查它相对于其他策略的有效性,或者当你进行更改时。评估提供了关于你对查询的响应有多准确、忠实和快速的客观度量。
RAG 效果比对
如图所示,由于xtuner
是一款比较新的框架, InternLM2-Chat-1.8B
训练数据库中并没有收录到它的相关信息。左图中问答均未给出准确的答案。右图未对 InternLM2-Chat-1.8B
进行任何增训的情况下,通过 RAG 技术实现的新增知识问答。
2. 环境、模型准备
2.1 配置基础环境
这里以在 Intern Studio 服务器上部署LlamaIndex为例。
进入开发机后,创建新的conda环境,命名为 llamaindex
,在命令行模式下运行:
conda create -n llamaindex python=3.10
复制完成后,在本地查看环境。
conda env list
结果如下所示。
# conda environments:
#
base * /root/.conda
llamaindex /root/.conda/envs/llamaindex
运行 conda
命令,激活 llamaindex
然后安装相关基础依赖
python 虚拟环境:
conda activate llamaindex
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
安装python 依赖包
pip install einops
pip install protobuf
环境激活。
2.2 安装 Python环境和依赖包
安装Python3.10版本的Anaconda虚拟环境和相关的包
conda create -n llamaindex python=3.10
conda activate llamaindex
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install einops
pip install protobuf
pip install llama-index==0.10.38 llama-index-llms-huggingface==0.2.0 "transformers[torch]==4.41.1" "huggingface_hub[inference]==0.23.1" huggingface_hub==0.23.1 sentence-transformers==2.7.0 sentencepiece==0.2.0
2.3 下载 Sentence Transformer 模型
源词向量模型 Sentence Transformer:(我们也可以选用别的开源词向量模型来进行 Embedding,目前选用这个模型是相对轻量、支持中文且效果较好的,同学们可以自由尝试别的开源词向量模型)
运行以下指令,新建一个python文件,贴入以下代码
然后,执行该脚本即可自动开始下载:
cd /root/llamaindex_demo
conda activate llamaindex
python download_hf.py
更多关于镜像使用可以移步至 HF Mirror 查看。
2.4 下载 NLTK 相关资源
我们在使用开源词向量模型构建开源词向量的时候,需要用到第三方库 nltk
的一些资源。正常情况下,其会自动从互联网上下载,但可能由于网络原因会导致下载中断,此处我们可以从国内仓库镜像地址下载相关资源,保存到服务器上。
我们用以下命令下载 nltk 资源并解压到服务器上: