大模型创建脚本

部署运行你感兴趣的模型镜像

--model 为vllm serve的参数

该脚本需要修改

DOCKERNAME为 为docker起的名字

MODELIFIE为真实的文件名字

MODELINAME 具体的模型名字,可以改可以不改,不是很重要,但是要改名字话最好做到见名知义

#!/bin/bash
DOCKERNAME=zhuque_qwen3_32b_AWQ
MOUNTFILE=/home/kekaoxing/ModelDeployment/zhuque_deployment
MODELFILE=Qwen3-32B-AWQ
MODELNAME=Qwen3-32B-TP1

docker run -itd \
  --name $DOCKERNAME  \
  --gpus all \
  --net host \
  --shm-size=24g \
  --restart always \
  -v $MOUNTFILE/models:/models_on_host \
  -w /workspace \
  docker.cipsup.cn/fangtaosong/zhuque_inference:vllm084 --model /models_on_host/$MODELFILE \
    --served-model-name $MODELNAME \
    --pipeline-parallel-size 1 \
    --tensor-parallel-size 1 \
    --port 7814 \
    --dtype auto \
    --gpu-memory-utilization 0.90 \
    --enable-chunked-prefill \
    --max-num-batched-tokens 4096

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值