VLLM本地部署Qwen2-7B-Instruce

使用 vllm 本地部署 Qwen2-7B-Instruct。
1.安装vllm
创建虚拟环境

conda create -n myvllm python=3.11 -y
conda activate myvllm
pip install -U pip

安装 Ray 和 Vllm,

pip install ray
pip install vllm   # 或者
git clone https://github.com/vllm-project/vllm.git; cd vllm
pip install ./ --no-build-isolation

安装 flash-attention,

# git clone https://github.com/Dao-AILab/flash-attention;cd flash-attention
# pip install ./ --no-build-isolation
pip install flash-attn
  1. 本地部署 Qwen2-7B-Instruct
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=3,2,1,0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model Qwen/Qwen2-7B-Instruct --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000
  1. 使用 Qwen2-7B-Instruct

使用llama调用 python llama

from langchain.llms import LlamaCpp
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

template = """Question: {question}

Answer: Let's work this out in a step by step way to be sure we have the right answer."""

prompt = PromptTemplate(template=template, input_variables=["question"])

import sys
model_name = sys.argv[1]
# Callbacks support token-wise streaming
callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
# Make sure the model path is correct for your system!
llm = LlamaCpp(
    model_path=model_name,
    temperature=0.75,
    max_tokens=2000,
    top_p=1,
    callback_manager=callback_manager,
    verbose=True, # Verbose is required to pass to the callback manager
)

while True:
    inputs = input("输入:")

### 如何在本地部署 DeepSeek VLLM 为了提供详细的指导,在本地环境中成功部署 DeepSeek VLLM 需要遵循一系列配置和安装过程。然而,当前提供的参考资料并未直接涉及此主题。尽管如此,可以基于常见的大型语言模型(LLM)部署实践来构建一个合理的流程。 #### 准备工作环境 确保操作系统支持并已更新至最新版本。对于 Linux 用户而言,建议使用 Debian 或 Ubuntu 发行版[^1]。这些发行版拥有广泛的社区支持以及丰富的软件包资源,有助于简化后续依赖项的安装。 #### 安装必要的工具与库 除了基础的操作系统外,还需要准备一些必备组件: - Python 及其开发环境 - Docker 和 NVIDIA Container Toolkit (如果计划利用 GPU 加速) - Git 版本控制系统用于获取源码仓库 ```bash sudo apt-get update && sudo apt-get upgrade -y pip3 install --upgrade pip setuptools wheel ``` #### 获取项目代码 通过克隆官方 GitHub 仓库或其他可信渠道获得最新的 DeepSeek VLLM 源码副本。这一步骤至关重要,因为开发者通常会在 README 文件中给出具体的安装说明和技术文档链接。 ```bash git clone https://github.com/deepseek-labs/vllm.git cd vllm ``` #### 构建镜像并启动容器 根据项目的 `Dockerfile` 来创建自定义镜像,并运行包含所需全部设置的服务实例。如果有现成的预训练权重文件,则应将其放置于适当位置以便加载。 ```dockerfile FROM pytorch/pytorch:latest-gpu WORKDIR /app COPY . . RUN pip install -r requirements.txt CMD ["python", "server.py"] ``` ```bash docker build -t deepseek-vllm . docker run --gpus all -p 8000:8000 -v $(pwd)/models:/app/models deepseek-vllm ``` #### 测试 API 接口功能 一旦服务正常运作起来之后,就可以借助 curl 命令或者 Postman 工具向暴露出来的 HTTP RESTful APIs 发送请求来进行初步验证了。 ```bash curl http://localhost:8000/predict \ -H 'Content-Type: application/json' \ -d '{"input": "your input text here"}' ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值