vllm多卡部署qwen2.5-72b-instruct

1. 介绍

1.1 vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。

vLLM 的特点和优势:

采用了 PagedAttention,可以有效管理 attention 的 keys、values。

吞吐量最多可以达到 huggingface 实现的24倍,文本生成推理(TGI)高出3.5倍,并且不需要对模型结构进行任何的改变。

2. 环境配置

h20-93GB * 2

PyTorch 2.5.1

Python 3.12(ubuntu22.04)

Cuda 12.4

Triton==3.1.0
transformers==4.46.0
safetensors==0.5.2

vllm==0.7.0

3. qwen2.5-72b-instruct模型下载

3.1下载网址

https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/tree/main

模型文件:135G

3.2 下载后存放目录

/LLM/Qwen2.5-72B-Instruct

4. api server服务启动

4.1 写启动脚本api_server.sh

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/LLM/qwen2.5-72b-instruct --served-model-name qwen2.5-72b --dtype=half --max-model-len 1000  --tensor-parallel-size=2 --pipeline-parallel-size=1 --gpu-memory-utilization 0.8

4.2 启动脚本api_server.sh

sh api_server.sh

GPU占用156G:

5. 写客户端验证

5.1 写python程序client_demo.py

5.2 运行client_demo.py程序

python client_demo.py

5.3 模型输出

### Qwen 2.5-7B 模型训练方法教程 对于Qwen 2.5-7B模型的训练,通常涉及预处理数据集、配置环境以及执行具体的训练过程。由于该模型基于Transformer架构并具有大量的参数,因此其训练需要强大的计算资源和支持分布式训练的能力。 #### 数据准备 为了有效地训练Qwen 2.5-7B,在开始之前需准备好高质量的数据集。这包括但不限于文本清理、分词化等操作。具体来说: - **清洗原始语料**:去除无关字符、HTML标签等内容。 - **构建词汇表**:依据选定的语言特性创建适合此大规模语言模型使用的字典文件[^1]。 ```bash # 假设使用Python脚本进行初步的数据清洗工作 python preprocess_data.py --input_file raw_text.txt --output_dir processed/ ``` #### 环境搭建 考虑到Qwen 2.5-7B庞大的规模及其对硬件性能的要求,建议采用GPU集群来进行高效稳定的训练流程。此外还需要安装必要的依赖库如PyTorch,并设置好相应的版本控制工具(例如Anaconda)来管理不同项目间的软件包差异。 针对Docker容器化的部署方案可以参考相关文档说明[^2],通过这种方式能够简化跨平台迁移过程中遇到的各种兼容性问题。 #### 配置超参与启动训练 一旦完成了上述准备工作,则可以根据实际需求调整一系列影响最终效果的关键因素——即所谓的“超参数”。这些变量涵盖了学习率、批次大小等个方面;同时也要注意选择合适的优化算法以加快收敛速度并提高泛化能力。 最后利用命令行界面提交作业至调度系统中等待被执行即可开启正式的迭代更新周期直至满足预期目标为止。 ```bash # 使用DeepSpeed框架加速/机场景下的大模型训练效率 deepspeed train_qwen_2_5.sh \ --model_name_or_path /path/to/qwen-2.5-7b-instruct \ --data_dir ./processed \ --learning_rate 5e-5 \ --per_device_train_batch_size 8 \ --gradient_accumulation_steps 4 \ --num_train_epochs 3 \ --save_strategy epoch \ --logging_dir logs \ --fp16 true ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值