大模型创建脚本

原创已于 2025-06-23 14:08:33 修改 · 133 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#linux

于 2025-06-20 15:05:10 首次发布

大模型专栏收录该内容

3 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

--model 为vllm serve的参数

该脚本需要修改

DOCKERNAME为为docker起的名字

MODELIFIE为真实的文件名字

MODELINAME 具体的模型名字，可以改可以不改，不是很重要，但是要改名字话最好做到见名知义

#!/bin/bash
DOCKERNAME=zhuque_qwen3_32b_AWQ
MOUNTFILE=/home/kekaoxing/ModelDeployment/zhuque_deployment
MODELFILE=Qwen3-32B-AWQ
MODELNAME=Qwen3-32B-TP1

docker run -itd \
  --name $DOCKERNAME  \
  --gpus all \
  --net host \
  --shm-size=24g \
  --restart always \
  -v $MOUNTFILE/models:/models_on_host \
  -w /workspace \
  docker.cipsup.cn/fangtaosong/zhuque_inference:vllm084 --model /models_on_host/$MODELFILE \
    --served-model-name $MODELNAME \
    --pipeline-parallel-size 1 \
    --tensor-parallel-size 1 \
    --port 7814 \
    --dtype auto \
    --gpu-memory-utilization 0.90 \
    --enable-chunked-prefill \
    --max-num-batched-tokens 4096

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值