应导师要求最近需要测试RAG vs. finetuning,好不容易找到可实践的模型,在搭建环境时就卡了我两天。
网上很多关于vLLM安装的教程,在我看来就分为两类:(1)按照vLLM官方说明Installation — vLLM安装在cuda12.1或cuda11.8下, pytorch官网(Previous PyTorch Versions | PyTorch)可以查找与本地cuda版本匹配的pytorch版本,;(2)通过修改vLLM的requirement文件来安装在其他cuda版本下。
因为我服务器是远程连接实验室多人共享的,不能重装cuda,所以尝试上面说的第二种方法,整整两天,终于第二天晚上弄好了。备注:不修改requirement的情况下安装vLLM 0.2.3。
(一)服务器环境
(二)安装成功如下图
(三)安装步骤
vLLM官方文档说了只针对cuda11.8和cuda12.1,那么我们就装vLLM后面带有+cu118或+cu121的版本,我服务器cuda是11的所以肯定不能装带有+cu112的,所以选择装后面带有+cu118的vLLM,又因为我需要跑的模型指定vLLM==0.2.3,综上考虑,我这儿只能安装vLLM==0.2.3+cu118
(1)anaconda创建独立虚拟环境,python版本遵循vLLM官方指定的3.9~3.12
conda create -n XXX python==3.10
(2)安装 pytorch,是带有+cu118的版本
pip install torch==2.1.2+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
(3)注意!!!一定要先安装xformers,不然会卡住很久很久(我亲测试至少卡两个小时没反应)
pip3 install -U xformers==0.0.23.post1+cu118 --index-url https://download.pytorch.org/whl/cu118
(4)安装vLLM,需要其他版本的话,直接把对应0.2.3的地方改成需要的版本号
pip install https://github.com/vllm-project/vllm/releases/download/v0.2.3/vllm-0.2.3+cu118-cp310-cp310-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118
(四)安装完成后,查看
pip list
结束。