【书生浦语大模型实战营第三期】基础岛 InternLM + LlamaIndex RAG 实践

最新推荐文章于 2025-02-11 16:45:14 发布

原创

最新推荐文章于 2025-02-11 16:45:14 发布

· 1k 阅读

17 ·

版权

文章标签：

#python #人工智能

主题： llamaindex+Internlm2 RAG实践

基础任务（完成此任务即完成闯关）

任务要求：基于 LlamaIndex 构建自己的 RAG 知识库，寻找一个问题 A 在使用 LlamaIndex 之前InternLM2-Chat-1.8B模型不会回答，借助 LlamaIndex 后 InternLM2-Chat-1.8B 模型具备回答 A 的能力，截图保存。

1.创建开发机

打开InternStudio平台，创建开发机。填写开发机名称；选择镜像Cuda11.7-conda；选择30% A100 * 1；点击“立即创建”。

在这里插入图片描述

2.环境模型配置

2.1 创建虚拟环境：

# 创建虚拟环境
conda create -n llamaindex python=3.10

2.2 激活虚拟环境然后安装相关基础依赖 python 虚拟环境:：

conda activate langgpt
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia

2.3 安装Python依赖包，依次运行下面的命令：

pip install einops
pip install  protobuf

2.4 安装 Llamaindex
安装 Llamaindex和相关的包

conda activate llamaindex
pip install llama-index==0.10.38 llama-index-llms-huggingface==0.2.0 "transformers[torch]==4.41.1" "huggingface_hub[inference]==0.23.1" huggingface_hub==0.23.1 sentence-transformers==2.7.0 sentencepiece==0.2.0

2.5 下载 Sentence Transformer 模型
源词向量模型 Sentence Transformer:（我们也可以选用别的开源词向量模型来进行 Embedding，目前选用这个模型是相对轻量、支持中文且效果较好的，同学们可以自由尝试别的开源词向量模型）运行以下指令，新建一个python文件

cd ~
mkdir llamaindex_demo
mkdir model
cd ~/llamaindex_demo
touch download_hf.py

打开download_hf.py 贴入以下代码

import os

# 设置环境变量
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

# 下载模型
os.system('huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir /root/model/sentence-transformer')

然后，在 /root/llamaindex_demo 目录下执行该脚本即可自动开始下载：

cd /root/llamaindex_demo
conda activate llamaindex
python download_hf.py

2.6 下载 NLTK 相关资源
我们在使用开源词向量模型构建开源词向量的时候，需要用到第三方库 nltk 的一些资源。正常情况下，其会自动从互联网上下载，但可能由于网络原因会导致下载中断，此处我们可以从国内仓库镜像地址下载相关资源，保存到服务器上。我们用以下命令下载 nltk 资源并解压到服务器上：

cd /root
git clone https://gitee.com/yzy0612/nltk_data.git  --branch gh-pages
cd nltk_data
mv packages/*  ./
c

最低0.47元/天解锁文章