Llamaindex RAG 实践本地部署+InternLM API+部署到 Hugging Face Space

NoemPol

已于 2024-12-30 09:44:45 修改

阅读量1.2k

点赞数 15

于 2024-12-18 11:04:37 首次发布

本文链接：https://blog.youkuaiyun.com/NoemPol/article/details/144528936

版权

1. 前置知识

正式介绍检索增强生成（Retrieval Augmented Generation，RAG）技术以前，大家不妨想想为什么会出现这样一个技术。给模型注入新知识的方式，可以简单分为两种方式，一种是内部的，即更新模型的权重，另一个就是外部的方式，给模型注入格外的上下文或者说外部信息，不改变它的的权重。第一种方式，改变了模型的权重即进行模型训练，这是一件代价比较大的事情，大语言模型具体的训练过程，可以参考InternLM2技术报告。第二种方式，并不改变模型的权重，只是给模型引入格外的信息。类比人类编程的过程，第一种方式相当于你记住了某个函数的用法，第二种方式相当于你阅读函数文档然后短暂的记住了某个函数的用法。

对比两种注入知识方式，第二种更容易实现。RAG 正是这种方式。它能够让基础模型实现非参数知识更新，无需训练就可以掌握新领域的知识。本次课程选用了 LlamaIndex 框架。LlamaIndex 是一个上下文增强的 LLM 框架，旨在通过将其与特定上下文数据集集成，增强大型语言模型（LLMs）的能力。它允许您构建应用程序，既利用 LLMs 的优势，又融入您的私有或领域特定信息。

RAG 效果比对

如图所示，由于xtuner是一款比较新的框架， InternLM2-Chat-1.8B 训练数据库中并没有收录到它的相关信息。左图中问答均未给出准确的答案。右图未对 InternLM2-Chat-1.8B 进行任何增训的情况下，通过 RAG 技术实现的新增知识问答。

RAG前

RAG后

2. 环境、模型准备

2.1 配置基础环境

这里以在 Intern Studio 服务器上部署 LlamaIndex 为例。

首先，打开 Intern Studio 界面，点击 创建开发机 配置开发机系统。

填写 开发机名称 后，点击选择镜像使用 Cuda11.7-conda 镜像，然后在资源配置中，使用 30% A100 * 1 的选项，然后立即创建开发机器。

点击 进入开发机 选项。

进入开发机后，创建新的 conda 环境，命名为 llamaindex，在命令行模式下运行：

conda create -n llamaindex python=3.10

复制完成后，在本地查看环境。

conda env list

运行 conda 命令，激活 llamaindex ：

conda activate llamaindex

环境激活后，命令行左边会显示当前（也就是 llamaindex ）的环境名称。

然后安装 python 相关基础依赖包：

pip install einops==0.7.0 protobuf==5.26.1

2.2 安装 Llamaindex 与 Pytorch

安装 Llamaindex 和相关的包：

conda activate llamaindex
pip install llama-index==0.10.38 llama-index-llms-huggingface==0.2.0 "transformers[torch]==4.41.1" "huggingface_hub[inference]==0.23.1" huggingface_hub==0.23.1 sentence-transformers==2.7.0 sentencepiece==0.2.0

安装 LlamaIndex 词嵌入向量依赖：

conda activate llamaindex
pip install llama-index-embeddings-huggingface==0.2.0 llama-index-embeddings-instructor==0.1.3

在这一步请确定llama-index-embeddings-huggingface安装成功
如果存在not found错误，请重新安装
# pip install llama-index-embeddings-huggingface==0.2.0
确保 huggingface_hub==0.23.1

最后再安装 Pytorch：

conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia

安装完成后，验证 Pytorch 是否正确安装并使用了指定的 CUDA 版本：

import torch
print(torch.__version__)        # 应输出类似 '2.0.1'
print(torch.version.cuda)       # 应输出 '11.7'
print(torch.cuda.is_available())# 应输出 True

关于 LlamaIndex 与 Pytorch 安装顺序的说明

关于本次实验的运行环境，我们建议的是如上先安装 Llamaindex ，再安装 Pytorch。

“先安装 Pytorch 再安装 Llamaindex”存在的问题是：匹配CUDA 11.7的torch安装在前，但是其后安装 LLamaIndex 相关的指令会稳定触发torch的升级到最新版本，而新版本的PyTorch (2.5.1) 默认使用CUDA 12.4，导致 Pytorch 版本与 CUDA版本不匹配。

这样，当进行到模型推理的步骤时，就会报错：
RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling cublasCreate(handle)
这时候就需要再次重新安装正确的torch：