0.确认python版本并更新
确认版本
python --version
如果不是3.12就执行下述命令
conda install python=3.12 -y
再确认版本
python --version
1.下载Deepseek模型(如果未提供)
安装ModelScope包: ModelScope 是一个模型中心,我们使用它来下载模型
pip install modelscope
先创建model文件夹
cd /root/autodl-tmp
mkdir model
使用modelscope下载模型
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir /root/autodl-tmp/model
2.安装vLLM
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple
3.使用vLLM启动推理服务
启动命令:
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/model --served-model-name Qwen7b --port 8102 --gpu-memory-utilization 0.9 --max-model-len 90000
4.使用代码调用vLLM推理服务
注:启动了vLLM后需要在AutoDL再开启一个终端运行以下指令!
首先创建一个python代码文件
vim example.py
输入以下内容:
from openai import OpenAI
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8102/v1"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
response = client.chat.completions.create(
model="Qwen7b",
messages=[
{"role": "user", "content": "你好,介绍下你自己吧"}
],
max_tokens=1000,
temperature=0.7
)
print(response.choices[0].message.content)
运行代码,成功后会在运行代码的终端响应回复,运行vLLM的终端回响应200状态码
python example.py
5.下载openwebui
pip install open-webui
6.设置并启动openwebui
export HF_ENDPOINT=https://hf-mirror.com
export ENABLE_OLLAMA_API=False
export OPENAI_API_BASE_URL=http://127.0.0.1:8102/v1
export DEFAULT_MODELS="Qwen7b"
open-webui serve --port 6006
按照以上设置并启动,打开网页应该是配置好了模型的情况
7.注:可能用到的命令
更新apt-get版本
apt-get update
下载sudo命令
apt-get install sudo
更新pip版本
pip install --upgrade pip
1万+

被折叠的 条评论
为什么被折叠?



