在AutoDL上体验Qwen3:从点开AutoDL到跑出第一句回复

部署运行你感兴趣的模型镜像

这是一篇从 0 到 1 在 AutoDL 上运行Qwen3-30B-A3B 的实战记录——包含做选择时的心理活动、以及踩过/躲过的小坑。希望你能像坐我旁边一样,看我如何把一块 H20 96GB 卡调教到能顺畅出字。

一、算力卡选择与租用

1.1 选择合适的GPU配置

这次我们要跑的是Qwen3-30B-A3B-Instruct-2507这个模型,这是一个的30B参数的模型。首先我们需要选择具有足够显存的GPU。下面先快速估个账:

显存 & 磁盘需求怎么估?
组成估算方式约占用
模型参数(FP16)30B * 2 Bytes~60 GB 显存/磁盘
模型参数(BF16)同 FP16~60 GB
8bit 量化30B * 1 Byte~30 GB
KV Cache (生成时)seq_len * hidden * layer_factor * bytes视上下文而定 (典型 2~8 GB)
临时中间张量/碎片10%~20% 预留6~12 GB

显存经验公式(推理):

显存需求 ≈ 模型参数(精度后) + KV Cache(并发*上下文) + 预留(10~20%)

以:单轮 2K tokens 上下文 + 采样 512 输出,batch=1 推理为例:

  • FP16 参数 60GB
  • KV Cache 约 ~3GB(粗略)
  • 预留 8GB
  • 合计 ≈ 71GB

磁盘:

项目大小(约)
模型权重(safetensors 多分片)55~65 GB

默认的 50GB 会直接“空间不足”。我实际跑完磁盘占用63.88GB,建议扩容到70GB。

推荐配置:

  • GPU型号: H20-NVLink
  • 显存: 96GB
  • 内存: 200GB
  • 数据盘: 扩容后建议选择不少于70GB(重要)

1.2 租用步骤

  1. 登录AutoDL平台

  2. 选择算力规格

    • 在算力市场中选择"H20-NVLink / 96GB"配置选购时要注意还剩多少可扩容的数据盘
      在这里插入图片描述
  3. 选择镜像

    • 建议选择:PyTorch / 2.3.0 / 3.12(ubuntu22.04) / 12.1
      在这里插入图片描述
  4. 确认订单

    • 检查配置信息
    • 确认价格(约¥7.35/时)
    • 点击"创建并开机"

二、数据盘扩容操作

2.1 扩容步骤

  1. 进入实例管理
    在这里插入图片描述

    在实例列表中找到你的机器,点击右侧的"扩容数据盘"选项。

  2. 设置扩容容量
    在这里插入图片描述

    在弹出的对话框中设置扩容容量,建议扩容到70GB(根据实际需求调整,这里我一开始多估计了一点)。

  3. 等待扩容完成

三、SSH连接到实例

在这里插入图片描述

连接成功后我们能看到当前的GPU型号和数据盘大小。

四、运行Qwen3-30B-A3B

接下来我将使用两种方式来运行Qwen3模型,分别是ModelScope库和vllm。

4.1 ModelScope

首先安装ModelScope环境

pip install modelscope
source /etc/network_turbo
pip install git+https://github.com/huggingface/transformers.git@main
pip install accelerate

编写Python代码

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-Next-80B-A3B-Thinking"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content) # no opening <think> tag
print("content:", content)

设置环境变量

将ModelScope的缓存目录设置到数据盘。

export MODELSCOPE_CACHE=/root/autodl-tmp/cache

运行测试

运行python程序。

等待漫长的模型下载过程…

在这里插入图片描述

模型下载完成后,稍等片刻就能看到模型输出

在这里插入图片描述

在AutoDL上我们可以看到实时的GPU使用率和显存占用,显存大约占用85GB。

在这里插入图片描述

4.2 vllm
vllm是一个高效的推理引擎,专为大规模语言模型设计。它支持多种优化技术,如流水线并行和张量并行,以最大化GPU利用率和吞吐量。

首先安装vllm环境

pip install vllm --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pytorch-wheels/cu128 -i https://pypi.tuna.tsinghua.edu.cn/simple

设置环境变量

将vllm的缓存目录设置到数据盘。设置后vllm和modelscope的缓存目录是公用的,接下来的模型下载就不会重复了。

export TRANSFORMERS_CACHE=/root/autodl-tmp/cache

运行测试

这里将上下文长度设置为4096,可以根据显存大小进行调整。

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3-30B-A3B-Instruct-2507 --max-model-len 4096

等待模型加载完成后,打开另一个终端窗口,使用curl命令进行测试:

curl -X POST "http://localhost:8000/v1/chat/completions"   -H "Content-Type: application/json"   -d '{
    "model": "Qwen/Qwen3-30B-A3B-Instruct-2507",
    "messages": [
      {"role": "user", "content": "write a store about dog and cat"}
    ]
  }'

等待模型输出结果
在这里插入图片描述

在刚刚的vllm终端窗口我们能看到模型的推理速度,可以看到推理速度非常快有51.5tokens/s。

在这里插入图片描述

在AutoDL上我们可以看到在上下文长度为4096时,实时的GPU使用率和显存占用,显存大约占用89GB。

在这里插入图片描述

五、总结

这一圈下来,最强烈的感受是:30B 级模型“看起来吓人”,但流程真不神秘——准备空间 > 等待下载 > 第一次出字。

最后

30B 大模型不是高冷科研怪兽,更像一只“吃得多但脾气还算好”的巨型猫:给它足够的碗(显存)、铺好垫子(磁盘),它就会安静地陪你聊天。

如果你也准备试:祝你一次拉满、一次出字;有新奇玩法(比如 4bit量化后的模型 + 长上下文 + 并发)欢迎留言交流。👋

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值