人工智能_大模型078_AI产品部署和交付08_基于VLLM部署大模型_FastAPI搭建API服务_VLLM分布式多卡推理_使用PostMan请求_VLLM源码部署---人工智能工作笔记0213

本文介绍了如何使用VLLM进行大模型部署,通过FastAPI搭建API服务,实现基于浏览器和Postman的访问。讨论了VLLM的分布式多卡推理,利用Ray进行管理,并提供了安装和配置的详细步骤。此外,还提及了模型的源码部署和国内大模型的一致性接口设计。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上一节我们部署了vllm,然后我们部署了以后,走到autoDL中,点击自定义服务,然后点击访问

就可以在浏览器中进行访问vllm了

 

然后同时我们还可以在命令行中进行使用

#### 运行命令

```bash
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --trust-remote-code --port 6006
```

```bash
curl https://u202774-8479-111790f4.westb.seetacloud.com:8443/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "/root/autodl-tmp/Yi-6B-Chat",
        "max_tokens":60,
        "messages": [
            {
                "role": "us
### vLLM 环境下的部署分布式训练配置 vLLM 是一个用于大型语言模型推理部署的高效库,支持 GPU 环境下的部署。在环境下部署 vLLM 需要对硬件资源进行合理分配,并调整相关参数以充分利用 GPU 的计算能力[^2]。 #### 1. 硬件资源分配 在环境中,可以通过 `--tensor-parallel-size` 参数指定张量并行度,该参数决定了模型在个 GPU 上的分布方式。例如,如果使用 4 块 GPU,则可以设置 `--tensor-parallel-size 4` 来实现张量并行化。此外,`--gpu-memory-utilization` 参数可以控制每个 GPU 的显存利用率,建议根据具体硬件配置调整该值以避免显存溢出。 ```bash python -m vllm.entrypoints.openai.api_server \ --model 'path/to/model' \ --served-model-name 'model_name' \ --host 0.0.0.0 \ --port 6006 \ --tensor-parallel-size 4 \ --gpu-memory-utilization 0.8 \ --dtype=half ``` #### 2. 数据类型优化 为了提高推理效率并减少显存占用,可以使用半精度浮点数(`--dtype=half`)进行推理。这种数据类型的优化对于大规模模型尤为重要,尤其是在环境下[^2]。 #### 3. 分布式训练配置 虽然 vLLM 主要用于推理任务,但其底层技术也可以扩展到分布式训练场景中。结合 DeepSpeed 的功能模块,可以进一步提升训练效率。DeepSpeed 提供了模型并行化、梯度累积等技术手段,适用于大规模模型的分布式训练[^1]。以下是一个基于 DeepSpeed 的分布式训练配置示例: ```yaml # deepspeed_config.json { "train_batch_size": 32, "gradient_accumulation_steps": 4, "fp16": { "enabled": true }, "zero_optimization": { "stage": 2 }, "optimizer": { "type": "AdamW", "params": { "lr": 5e-5, "betas": [0.9, 0.999], "eps": 1e-8 } } } ``` 运行分布式训练时,可以使用以下命令启动训练脚本: ```bash deepspeed train.py --deepspeed deepspeed_config.json ``` #### 4. 在 Google Colab 中利用免费 GPU 如果需要在云端环境中测试部署,可以使用 Google Colab 提供的 T4 GPU 资源。尽管 Colab 通常仅提供单块 GPU,但通过连接个 Colab 实例或使用更高级的云服务(如 AWS、GCP),可以模拟环境[^3]。 ```bash # 在 Colab 中安装 vLLM !pip install vllm # 启动 vLLM 推理服务 !python -m vllm.entrypoints.openai.api_server \ --model 'path/to/model' \ --served-model-name 'model_name' \ --host 0.0.0.0 \ --port 6006 \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9 \ --dtype=half ``` #### 注意事项 - 确保所有 GPU 的驱动程序 CUDA 版本兼容。 -环境中,需合理分配网络带宽以避免通信瓶颈。 - 使用 `--dtype=half` 时,需确认模型支持半精度推理---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值