vllm+qwen2部署!

 准备好qwen2模型:去huggingface镜像、魔搭 都可下载:
HF-Mirror魔搭社区


创建conda环境:
conda create -n name python==3.10  (python环境一定要3.10 后面有用!


激活环境:
conda activate name


替换镜像源:
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple


安装所需依赖:

pip install modelscope==1.11.0
pip install openai==1.17.1

pip/pip3 install torch torchvision torchaudio
pip install tqdm==4.64.1
pip install transformers==4.39.3

安装flash-attn依赖包的时候有坑!
需要先安装nijia这个包:

pip install ninja 
检查ninja是否安装成功:

echo $?

返回0代表安装成功!

此时再次安装flash-attn:

MAX_JOBS=8 pip install flash-attn --no-build-isolation

还是报错,加上代理再次安装!

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.2/flash_attn-2.5.2+cu122torch2.2cxx11abiFALSE-cp310-cp310-linux_x86_64.whl
如果超时 可以设置参数 --timeout=250(具体多少根据实际情况定) 
 

参考:安装flash-attention失败的终极解决方案_building wheels for collected packages: flash-attn-优快云博客

安装成功!



pip install vllm

启动openai风格接口:
python -m vllm.entrypoints.openai.api_server --model /dfs/data/autodl-tmp/qwen/Qwen2-7B-Instruct  --served-model-name Qwen2-7B-Instruct --max-model-len=2048

--dtype=half (我当前显卡为esla V100-PCIE-32GB GPU具有计算能力7.0,不够8.0,所以需要设置半精度,使用float16(half precision)而非Bfloat16进行计算,这样可以降低算力要求)


若想启动多Gpu再设置以下两个参数:
CUDA_VISIBLE_DEVICES=0,1,2,3

并行计算参数:
--tensor-parallel-size=2(张量并行参数设置)
--pipeline-parallel-size=4(管道并行参数设置)

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/qwen/Qwen2-7B-Instruct --served-model-name Qwen2-7B-Instruct --max-model-len=2048

成功启动服务!

### vLLM Qwen2.5本地环境部署指南 对于vLLM Qwen2.5模型,在本地环境中成功部署涉及多个步骤,确保依赖项正确安装至关重要。针对`import flash_attn`及其相关组件遇到的问题,建议按照以下方法解决: 当面临诸如`import flash_attn rms_norm fail`、`import flash_attn rotary fail`以及简单的`import flash_attn fail`等问题时,可以尝试通过克隆官方GitHub仓库并执行安装操作来解决问题[^1]。 #### 安装Flash Attention库 为了克服上述错误,推荐的操作如下所示: ```bash git clone https://github.com/Dao-AILab/flash-attention cd flash-attention && pip install . ``` 如果发现默认的安装过程速度过慢,则可以选择带有`--no-build-isolation`参数的方式加速安装流程: ```bash pip install flash-attn --no-build-isolation ``` 此外,还有几个可选但可能耗时较长的部分用于增强功能支持,比如层归一化(`layer_norm`)和旋转位置编码(`rotary`)的支持模块。这些额外组件虽然不是必需品,但对于某些特定应用场景可能是有益补充。需要注意的是,它们可能会显著增加CPU资源消耗时间: ```bash pip install csrc/layer_norm # 非常占用CPU,需耐心等待完成 pip install csrc/rotary # 同样较为耗费计算资源 ``` 以上措施有助于改善因缺少必要软件包而导致的各种导入失败情况。然而,这仅仅是整个部署过程中的一部分工作;完整的Qwen2.5模型部署还需要考虑更多方面,包括但不限于硬件配置检查、其他依赖关系管理等。 对于更详细的指导文档或具体到操作系统级别的差异处理,请参照项目官方网站或社区论坛获取最新资料和支持。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值