VLLM在linux下部署

1.docker部署

镜像库地址:https://hub.docker.com/r/vllm/vllm-openai/tags

拉取镜像:docker pull vllm/vllm-openai:v0.8.5.post1

启动:

sudo docker run  -d  --privileged=true --gpus all -v /vllm:/home/llm_deploy     -p 9000:8000  --ipc=host     --name vllm2025     vllm/vllm-openai:v0.8.5.post1

可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch,它使用共享内存在后台进程之间共享数据,特别是对于张量并行推理。

2.pip安装vllm==0.8.5 

conda create -n vllm python=3.12 -y
conda activate vllm

pip install vllm

vLLM 是使用 CUDA 12.4 编译的,因此您需要确保机器运行的是该版本的 CUDA。

检查 CUDA 版本,运行:nvcc --version

 如果CUDA 版本不是 12.4,可以安装与您当前 CUDA 版本兼容的 vLLM 版本

3.启动vllm命令

cd /home/llm_deploy/

vllm serve  RolmOCR --dtype=half/

使用时,模型名称为“RolmOCR ”

4.调用接口

  client = OpenAI(api_key="123", base_url="http://192.168.0.226:9000/v1")

    model = "Qwen3-4B"


    def chat():
        response = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": [

                        {
                            "type": "text",
                            "text": "中国首都.\n",
       
                        },
                    ],
                }
            ],
            temperature=0.1,
            max_tokens=4096
        )
        return response.choices[0].message.content


    print(chat())

### 部署 VLLM 大模型于 Linux 的指南 #### 准备环境 为了在 Linux部署 VLLM(Very Large Language Model),需要先安装必要的依赖项并配置运行环境。推荐使用 Python 和虚拟环境来管理项目所需的库版本。 确保已安装以下工具: - **Python 3.8 或更高版本** - **pip 工具** - **Git** 可以通过以下命令验证和更新这些工具: ```bash python --version && pip --version sudo apt update && sudo apt install git python3-pip -y ``` 创建一个新的虚拟环境用于隔离依赖关系[^1]: ```bash python3 -m venv vllm-env source vllm-env/bin/activate ``` #### 安装 Ray 和 RLlib VLLM 可能会涉及分布式计算框架,Ray 是一种常用的解决方案。通过 `pip` 安装 Ray 和其子模块 RLlib 来支持大规模训练和推理操作: ```bash pip install ray[rllib]==2.0.0 ``` 此步骤有助于构建高效的分布式架构以处理大型数据集和复杂模型结构。 #### 获取预训练模型 对于多模态大语言模型的应用场景,可以考虑基于现有研究成果如 X-LLM 进行扩展开发。X-LLM 展现出了强大的跨领域适应能力以及良好的迁移性能[^2]。下载对应权重文件或者直接调用公开 API 接口获取所需参数集合。 假设我们采用 Hugging Face 提供的 Transformers 库加载特定类型的 LLMs,则执行如下脚本初始化实例对象: ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("bigscience/bloomz") model = AutoModelForCausalLM.from_pretrained("bigscience/bloomz", device_map='auto') ``` 上述代码片段展示了如何利用 BLOOMZ 模型作为基础组件之一完成初步搭建工作流程的一部分. #### 启动服务端程序 最后一步就是编写简单的 HTTP RESTful Web Service 将整个预测逻辑封装起来对外暴露接口给客户端访问请求。Flask 是一个轻量级 WSGI 微框架非常适合这种场合下快速原型设计需求。 ```python from flask import Flask, request, jsonify app = Flask(__name__) @app.route('/predict', methods=['POST']) def predict(): input_text = request.json['text'] inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return jsonify({"output":result}) if __name__ == "__main__": app.run(host='0.0.0.0', port=5000) ``` 以上即完成了从零开始直至最终成果展示全过程概述说明文档撰写完毕后的总结部分.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值