AUTODL部署

原创已于 2025-10-31 00:03:51 修改 · 249 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机

于 2025-10-30 22:36:20 首次发布

人工智能专栏收录该内容

1 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

0.确认python版本并更新

确认版本

python --version

如果不是3.12就执行下述命令

conda install python=3.12 -y

再确认版本

python --version

1.下载Deepseek模型（如果未提供）

安装ModelScope包: ModelScope 是一个模型中心，我们使用它来下载模型

pip install modelscope

先创建model文件夹

cd /root/autodl-tmp

mkdir model

使用modelscope下载模型

modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir /root/autodl-tmp/model

2.安装vLLM

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

3.使用vLLM启动推理服务

启动命令：

python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/model --served-model-name Qwen7b --port 8102 --gpu-memory-utilization 0.9 --max-model-len 90000

4.使用代码调用vLLM推理服务

注：启动了vLLM后需要在AutoDL再开启一个终端运行以下指令！

首先创建一个python代码文件

vim example.py

输入以下内容：

from openai import OpenAI   



openai_api_key = "EMPTY"

openai_api_base = "http://localhost:8102/v1"



client = OpenAI(    

    api_key=openai_api_key,   

    base_url=openai_api_base,   

)      



response = client.chat.completions.create(

    model="Qwen7b",

    messages=[

        {"role": "user", "content": "你好，介绍下你自己吧"}

    ],

    max_tokens=1000,

    temperature=0.7

)



print(response.choices[0].message.content)

运行代码，成功后会在运行代码的终端响应回复，运行vLLM的终端回响应200状态码

python example.py

5.下载openwebui

pip install open-webui

6.设置并启动openwebui

export HF_ENDPOINT=https://hf-mirror.com

export ENABLE_OLLAMA_API=False

export OPENAI_API_BASE_URL=http://127.0.0.1:8102/v1

export DEFAULT_MODELS="Qwen7b"

open-webui serve --port 6006

按照以上设置并启动，打开网页应该是配置好了模型的情况

7.注：可能用到的命令

更新apt-get版本

apt-get update

下载sudo命令

apt-get install sudo

更新pip版本

pip install --upgrade pip

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值