Qwen3-235B-A22B-Instruct-2507 的部署与使用-优快云博客

Qwen3-235B-A22B-Instruct-2507 的部署与使用

【免费下载链接】Qwen3-235B-A22B-Instruct-2507 Qwen3-235B-A22B-Instruct-2507是一款强大的开源大语言模型，拥有2350亿参数，其中220亿参数处于激活状态。它在指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用等方面表现出色，尤其在长尾知识覆盖和多语言任务上显著提升。模型支持256K长上下文理解，生成内容更符合用户偏好，适用于主观和开放式任务。在多项基准测试中，它在知识、推理、编码、对齐和代理任务上超越同类模型。部署灵活，支持多种框架如Hugging Face transformers、vLLM和SGLang，适用于本地和云端应用。通过Qwen-Agent工具，能充分发挥其代理能力，简化复杂任务处理。最佳实践推荐使用Temperature=0.7、TopP=0.8等参数设置，以获得最优性能。项目地址: https://gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Instruct-2507

文章详细介绍了Qwen3-235B-A22B-Instruct-2507模型的部署与使用方法，包括Hugging Face Transformers集成、vLLM与SGLang部署指南、本地运行与API调用示例以及内存优化与性能调优建议。

Hugging Face Transformers 集成

Qwen3-235B-A22B-Instruct-2507 是一个强大的开源语言模型，支持与 Hugging Face Transformers 无缝集成。通过 Transformers 库，用户可以轻松加载模型、进行推理和部署。本节将详细介绍如何将 Qwen3-235B-A22B-Instruct-2507 集成到 Transformers 生态系统中，并提供代码示例和最佳实践。

1. 环境准备

在开始之前，请确保已安装最新版本的 transformers 库（版本 >= 4.51.0）。如果版本过低，可能会遇到 KeyError: 'qwen3_moe' 错误。

pip install transformers --upgrade

2. 加载模型和分词器

使用 AutoModelForCausalLM 和 AutoTokenizer 可以轻松加载 Qwen3-235B-A22B-Instruct-2507 模型和分词器。以下是一个完整的加载示例：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Instruct-2507"

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

3. 模型推理

加载模型后，可以输入文本生成响应。以下是一个简单的推理示例：

prompt = "请介绍一下 Qwen3-235B-A22B-Instruct-2507 的特点。"
messages = [{"role": "user", "content": prompt}]

# 应用聊天模板
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)

# 准备输入
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成响应
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)

# 解码输出
output = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
print(output)

4. 部署选项

Qwen3-235B-A22B-Instruct-2507 支持多种部署方式，包括：

使用 vLLM 部署

vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 \
    --tensor-parallel-size 8 \
    --max-model-len 262144

使用 SGLang 部署

python -m sglang.launch_server \
    --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 \
    --tp 8 \
    --context-length 262144

5. 高级功能

工具调用

Qwen3-235B-A22B-Instruct-2507 支持工具调用功能，可以通过 Qwen-Agent 库实现。以下是一个示例：

from qwen_agent.agents import Assistant

llm_cfg = {
    "model": "Qwen3-235B-A22B-Instruct-2507",
    "model_server": "http://localhost:8000/v1",
    "api_key": "EMPTY",
}

tools = ["code_interpreter", "web_search"]
bot = Assistant(llm=llm_cfg, function_list=tools)

messages = [{"role": "user", "content": "请搜索最新的 Qwen 相关新闻。"}]
for response in bot.run(messages=messages):
    print(response)

超长上下文支持

Qwen3-235B-A22B-Instruct-2507 支持长达 1M 的上下文。启用此功能需要修改配置文件并重新加载模型：

mv config.json config.json.bak
mv config_1m.json config.json

6. 性能优化

内存管理：使用 device_map="auto" 自动分配 GPU 内存。
批处理：通过调整 max_num_batched_tokens 参数优化推理速度。
稀疏注意力：启用 Dual Chunk Attention 以提升长上下文处理效率。

7. 常见问题

OOM 错误：减少 max_model_len 或增加 tensor_parallel_size。
版本兼容性：确保 transformers 版本 >= 4.51.0。

通过以上步骤，用户可以轻松将 Qwen3-235B-A22B-Instruct-2507 集成到 Hugging Face Transformers 生态系统中，并充分利用其强大的功能。

vLLM 与 SGLang 部署指南

Qwen3-235B-A22B-Instruct-2507 是一个功能强大的语言模型，支持高达 1M 的上下文长度。为了充分发挥其性能，可以使用 vLLM 或 SGLang 进行高效部署。以下是详细的部署指南。

1. 准备工作

在部署之前，确保满足以下条件：

硬件要求：至少 8 个 GPU（如 A100 80GB），总显存需求约为 1000 GB。
软件依赖：
- Python 3.8+
- PyTorch 2.0+
- transformers>=4.51.0
- vllm>=0.8.5 或 sglang>=0.4.6.post1

2. 下载模型

使用以下命令下载模型：

export MODELNAME=Qwen3-235B-A22B-Instruct-2507
huggingface-cli download Qwen/${MODELNAME} --local-dir ${MODELNAME}

3. 配置模型

如果需要支持 1M 上下文长度，替换配置文件：

mv ${MODELNAME}/config.json ${MODELNAME}/config.json.bak
mv ${MODELNAME}/config_1m.json ${MODELNAME}/config.json

4. 使用 vLLM 部署

安装 vLLM

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .

启动服务

VLLM_ATTENTION_BACKEND=DUAL_CHUNK_FLASH_ATTN VLLM_USE_V1=0 \
vllm serve ./Qwen3-235B-A22B-Instruct-2507 \
  --tensor-parallel-size 8 \
  --max-model-len 1010000 \
  --enable-chunked-prefill \
  --max-num-batched-tokens 131072 \
  --enforce-eager \
  --max-num-seqs 1 \
  --gpu-memory-utilization 0.85

关键参数说明

参数	说明
`VLLM_ATTENTION_BACKEND=DUAL_CHUNK_FLASH_ATTN`	启用双分块注意力机制
`--max-model-len 1010000`	设置最大上下文长度为 1M
`--enable-chunked-prefill`	启用分块预填充以避免 OOM
`--max-num-batched-tokens 131072`	控制预填充批次大小

5. 使用 SGLang 部署

安装 SGLang

git clone https://github.com/sgl-project/sglang.git
cd sglang
pip install -e "python[all]"

启动服务

python3 -m sglang.launch_server \
    --model-path ./Qwen3-235B-A22B-Instruct-2507 \
    --context-length 1010000 \
    --mem-frac 0.75 \
    --attention-backend dual_chunk_flash_attn \
    --tp 8 \
    --chunked-prefill-size 131072

关键参数说明

参数	说明
`--attention-backend dual_chunk_flash_attn`	启用双分块注意力机制
`--context-length 1010000`	设置最大上下文长度为 1M
`--mem-frac 0.75`	显存利用率设置为 75%

6. 测试服务

使用以下 Python 代码测试服务是否正常运行：

import requests

response = requests.post(
    "http://localhost:8000/v1/completions",
    json={
        "model": "Qwen3-235B-A22B-Instruct-2507",
        "prompt": "介绍一下 Qwen3 模型的特点",
        "max_tokens": 100
    }
)
print(response.json())

7. 常见问题

问题 1：显存不足

解决方案：降低 --max-model-len 或 --context-length，或增加 --tensor-parallel-size。

问题 2：预填充速度慢

解决方案：调整 --max-num-batched-tokens 或 --chunked-prefill-size。

通过以上步骤，您可以高效部署 Qwen3-235B-A22B-Instruct-2507 模型，并充分利用其强大的性能。

本地运行与 API 调用示例

Qwen3-235B-A22B-Instruct-2507 是一个强大的语言模型，支持本地运行和 API 调用。本节将详细介绍如何通过本地部署和 API 调用来使用该模型，并提供具体的代码示例和配置说明。

本地运行

环境准备

在本地运行 Qwen3-235B-A22B-Instruct-2507 之前，需要确保满足以下硬件和软件要求：

硬件要求：至少 8 张 GPU（推荐 A100 80GB 或更高性能显卡）。
软件依赖：
- Python 3.8 或更高版本。
- PyTorch 2.0 或更高版本。
- Transformers 库（版本 >= 4.51.0）。
- CUDA 11.8 或更高版本。

安装依赖

运行以下命令安装必要的依赖：

pip install torch transformers sentencepiece accelerate

加载模型

以下代码展示了如何加载模型并进行本地推理：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Instruct-2507"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "介绍一下 Qwen3-235B-A22B-Instruct-2507 的主要特点。"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024
)
output = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
print(output)

运行结果

运行上述代码后，模型会生成对提示的响应，输出内容将包含 Qwen3-235B-A22B-Instruct-2507 的主要特点。

API 调用示例

除了本地运行，还可以通过 API 调用 Qwen3-235B-A22B-Instruct-2507。以下是使用 vLLM 和 SGLang 部署 API 服务的步骤。

使用 vLLM 部署

安装 vLLM：

pip install vllm

启动 API 服务：

vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144

调用 API：

import requests

url = "http://localhost:8000/v1/completions"
headers = {"Content-Type": "application/json"}
data = {
    "model": "Qwen/Qwen3-235B-A22B-Instruct-2507",
    "prompt": "介绍一下 Qwen3-235B-A22B-Instruct-2507 的主要特点。",
    "max_tokens": 1024
}

response = requests.post(url, headers=headers, json=data)
print(response.json())

使用 SGLang 部署

安装 SGLang：

pip install sglang

启动 API 服务：

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144

调用 API：

import requests

url = "http://localhost:30000/v1/chat/completions"
headers = {"Content-Type": "application/json"}
data = {
    "model": "Qwen/Qwen3-235B-A22B-Instruct-2507",
    "messages": [{"role": "user", "content": "介绍一下 Qwen3-235B-A22B-Instruct-2507 的主要特点。"}],
    "max_tokens": 1024
}

response = requests.post(url, headers=headers, json=data)
print(response.json())

性能优化

为了提升推理性能，可以调整以下参数：

max_model_len：控制最大上下文长度。
tensor_parallel_size：设置 GPU 并行数量。
gpu_memory_utilization：调整 GPU 内存利用率。

mermaid

通过以上步骤，可以轻松实现 Qwen3-235B-A22B-Instruct-2507 的本地运行和 API 调用。

内存优化与性能调优建议

在部署和使用Qwen3-235B-A22B-Instruct-2507时，内存优化与性能调优是确保模型高效运行的关键。本节将提供一系列实用的建议，帮助您最大化利用硬件资源，提升模型的推理速度和稳定性。

1. 内存优化策略

1.1 模型分片加载

Qwen3-235B-A22B-Instruct-2507是一个参数量庞大的模型，直接加载到内存中可能会导致内存不足。通过分片加载技术，可以按需加载模型的部分权重，从而减少内存占用。

# 示例代码：分片加载模型
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    "hf_mirrors/Qwen/Qwen3-235B-A22B-Instruct-2507",
    device_map="auto",  # 自动分片加载
    low_cpu_mem_usage=True  # 减少CPU内存占用
)

1.2 使用混合精度训练

混合精度训练（如FP16或BF16）可以显著减少显存占用，同时保持模型的推理精度。以下是启用混合精度训练的示例：

# 示例代码：启用混合精度训练
import torch

model = AutoModelForCausalLM.from_pretrained(
    "hf_mirrors/Qwen/Qwen3-235B-A22B-Instruct-2507",
    torch_dtype=torch.float16  # 使用FP16
)

1.3 内存映射技术

通过内存映射（Memory Mapping）技术，可以将模型权重存储在磁盘上，仅在需要时加载到内存中。这种方法特别适合显存有限的设备。

mermaid

2. 性能调优建议

2.1 批处理优化

通过增加批处理大小（Batch Size），可以充分利用GPU的并行计算能力。但需注意避免因批处理过大导致显存溢出。

# 示例代码：设置批处理大小
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("hf_mirrors/Qwen/Qwen3-235B-A22B-Instruct-2507")
inputs = tokenizer(["输入文本1", "输入文本2"], return_tensors="pt", padding=True, truncation=True)
outputs = model.generate(**inputs, max_length=50, num_beams=5)

2.2 使用缓存机制

启用键值缓存（KV Cache）可以避免重复计算，显著提升推理速度。以下是启用缓存的示例：

# 示例代码：启用键值缓存
outputs = model.generate(
    **inputs,
    use_cache=True,  # 启用缓存
    max_length=100
)

2.3 硬件资源分配

合理分配CPU和GPU资源，避免资源争抢。例如，可以将数据预处理任务分配给CPU，模型推理任务分配给GPU。

mermaid

3. 监控与调试工具

3.1 内存监控

使用工具（如nvidia-smi或psutil）实时监控内存和显存使用情况，及时发现瓶颈。

# 示例命令：监控显存使用
nvidia-smi -l 1  # 每秒刷新一次显存状态

3.2 性能分析

通过性能分析工具（如PyTorch Profiler）定位性能瓶颈，优化计算密集型操作。

# 示例代码：使用PyTorch Profiler
with torch.profiler.profile(
    activities=[torch.profiler.ProfilerActivity.CPU, torch.profiler.ProfilerActivity.CUDA]
) as prof:
    outputs = model.generate(**inputs)
print(prof.key_averages().table())

4. 总结

通过分片加载、混合精度训练、批处理优化和缓存机制等技术，可以显著提升Qwen3-235B-A22B-Instruct-2507的内存利用率和推理性能。结合监控工具，持续优化模型运行效率。

总结

Qwen3-235B-A22B-Instruct-2507是一个功能强大的开源语言模型，支持多种部署方式和优化策略。通过本文介绍的步骤和建议，用户可以高效地部署和使用该模型，充分发挥其性能优势。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考