在线云平台：共绩算力 RTX 5090 部署 Qwen-7B-Chat 模型

最新推荐文章于 2025-11-23 19:13:18 发布

原创最新推荐文章于 2025-11-23 19:13:18 发布 · 816 阅读

CC 4.0 BY-SA版权

文章标签：

在线云平台：共绩算力 RTX 5090 部署 Qwen-7B-Chat 模型
共绩算力 RTX 5090 部署 Qwen-7B-Chat 模型（零兼容冲突版）指南，核心聚焦环境准备环节。云主机需选择 RTX 5090（32GB 显存）规格，搭配默认 Linux 镜像（含 Python 3.10+、CUDA 12.8 及 470.82.01 + 驱动），网络支持国内 PyPI 镜像和 ModelScope 访问即可，无需额外配置。登录方式为通过平台 Web 终端或 Jupyter 终端，无需 SSH 配置，登录后需先执行清理旧环境命令以消除冲突残留。

一、关于共绩算力

共绩科技云主机是一款面向 AI 开发者、科研团队及企业用户的高性能 GPU 算力服务，致力于为用户提供丰富的 GPU 资源选择、极速部署体验和企业级服务保障，助力 AI 创新与高效开发。

1. 技术特性 & 核心优势
✨ 丰富的GPU资源

多种高端 GPU 卡型可选，包括 RTX 4090、H20、L20、L40、H800 等，满足不同规模与场景的算力需求。
无需担心设备短缺，随时获得所需资源，保障 AI 开发与训练的连续性。
✨ 极速启动与高性能环境

几分钟内即可启动 AI 开发环境，无需繁琐配置，开箱即用。
所有镜像均在真实 GPU 环境下严格验证，性能稳定可靠，适配高强度计算任务。
✨ 完整开发工具链

预装 30 余款开发工具，涵盖 Jupyter Lab、VS Code Server、Web Shell 等，开发环境一键就绪。
支持主流 AI 框架（如 PyTorch、TensorFlow 全家桶），免去环境配置烦恼。
✨ 灵活计费与高效资源调度

弹性计费模式，按需付费，用多少付多少，极大降低使用门槛。
支持弹性资源调度，按需分配计算资源，提升资源利用率。
✨ 镜像与环境管理

支持镜像版本管理，极速发布上线，一键分发至多个环境，提升部署效率。
支持自定义启动命令与 supervisord 进程管理，灵活配置服务启动流程。
✨ 数据与存储安全

支持挂载共享存储卷，基于 K8s PVC 机制，确保数据安全可靠，数据永不丢失。
✨ 专业技术支持与运维保障

全天候专业团队支持，保障用户无忧使用。
集成 SSH、Bash、Screen 等运维工具，管理便捷高效。
✨ 免费开关机体验

开关机过程完全免费，无论操作多少次都不产生额外费用，仅为实际使用时间付费。
支持单机多卡训练和多机分布式训练，满足大规模模型微调与训练需求。
2. 典型应用场景
✨ AI模型开发与训练

一键启动高性能开发环境，支持单机多卡与多机分布式训练，满足从实验到生产的多样化需求。

✨ 算法竞赛与科研实验

弹性算力资源，灵活计费，支持镜像快速切换与环境复现，提升实验效率。

✨ AI 应用上线与服务部署

开发完成后可一键发布为 Serverless 在线服务，结合高效镜像管理与弹性调度，轻松应对业务高峰。

✨ AI 教育与培训

支持大规模镜像分发与统一管理，保障教学效率与知识产权安全。

二、环境准备（零冲突依赖组合）

1. 云主机配置选择

算力规格：RTX 5090（32GB 显存）
系统镜像：默认 Linux 镜像（Python 3.10+、预装 CUDA 12.8，共绩算力默认镜像即可）
网络要求：无需额外配置，支持访问国内 PyPI 镜像和 ModelScope 即可

2. 登录云主机

通过共绩算力平台提供的 Web 终端或 Jupyter 终端登录，直接执行以下命令（无需 SSH 配置）。

3. 清理旧环境（彻底消除冲突残留）

# 卸载所有可能冲突的包
pip3 uninstall -y torch torchvision torchaudio vllm outlines xformers huggingface-hub openai
# 强制删除残留文件
rm -rf /opt/miniconda3/lib/python3.12/site-packages/{torch*,vllm*,outlines*,xformers*,huggingface_hub*,openai*}
# 清理 pip 缓存
pip3 cache purge
4. 安装核心依赖（经测试无任何冲突）

# 安装 PyTorch 2.7.1（完美支持 RTX 5090 sm_120 架构）
pip3 install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu128 -i https://pypi.tuna.tsinghua.edu.cn/simple

# 1. 安装预编译的 sentencepiece（无需编译，直接可用）
pip3 install sentencepiece -i https://pypi.tuna.tsinghua.edu.cn/simple --only-binary :all:

# 安装模型加载核心依赖（无版本冲突）
pip3 install transformers==4.41.0 accelerate==0.31.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装 ModelScope（国内镜像下载模型，避免网络超时）
pip3 install modelscope==1.14.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

5. 验证环境（确保无兼容问题）

执行以下命令，输出均符合预期则环境正常：

# 验证 PyTorch + CUDA 适配
python3 -c "import torch; print('CUDA 可用：', torch.cuda.is_available()); print('GPU 型号：', torch.cuda.get_device_name(0)); print('PyTorch 版本：', torch.__version__)"
# 预期输出：CUDA 可用：True；GPU 型号：NVIDIA GeForce RTX 5090；PyTorch 版本：2.7.1

# 验证核心库导入
python3 -c "from transformers import AutoModelForCausalLM, AutoTokenizer; import modelscope; print('所有库导入成功')"
# 预期输出：所有库导入成功

三、下载 Qwen-7B-Chat 模型（国内镜像，零超时）

终端下载模型

使用 ModelScope 国内镜像下载，避免 Hugging Face 官方源的网络问题，且自动下载完整配置文件（含 config.json、tokenizer.json 等）：

# 创建模型存储目录
mkdir -p /root/models/Qwen-7B-Chat
cd /root/models/Qwen-7B-Chat

# 1. 安装缺失的 tiktoken 依赖（国内源加速）
pip3 install tiktoken -i https://pypi.tuna.tsinghua.edu.cn/simple

# 1. 安装缺失的 transformers_stream_generator 依赖
pip3 install transformers_stream_generator -i https://pypi.tuna.tsinghua.edu.cn/simple

# 1. 安装 cv2 基础依赖（无需完整编译，国内源加速）
pip3 install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple

# 2. 补全 modelscope 所有潜在依赖（避免后续报错）
pip3 install modelscope fastapi uvicorn pydantic starlette python-multipart -i https://pypi.tuna.tsinghua.edu.cn/simple

# 3. 升级 modelscope 到最新版（修复旧版本依赖冲突）
pip3 install --upgrade modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

apt update -y && apt install -y libgl1-mesa-glx

# 启用国内镜像加速，避免超时
export MODEL_SCOPE_ENDPOINT=https://modelscope.cn/api/v1

# 执行 modelscope 下载（仅保留支持的参数）
modelscope download --model qwen/Qwen-7B-Chat --local-dir /root/models/Qwen-7B-Chat

验证模型完整性

下载完成后执行以下命令，确保核心文件存在：

ls -l /root/models/Qwen-7B-Chat | grep -E "config.json|tokenizer.json|safetensors"

预期输出应包含：config.json、tokenizer.json、model-00001-of-00002.safetensors、model-00002-of-00002.safetensors。

四、编写 Python 启动脚本（控制台循环交互）
创建 qwen_chat.py 脚本，代码无任何过时参数，适配当前依赖版本：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 模型路径（与下载目录一致）
MODEL_PATH = "/root/models/Qwen-7B-Chat"

def load_model():
"""加载模型和Tokenizer，仅初始化一次"""
print("正在加载 Qwen-7B-Chat 模型...（首次启动较慢，约5-10分钟，请耐心等待）")

# 加载Tokenizer（适配 Qwen 模型格式）
tokenizer = AutoTokenizer.from_pretrained(
MODEL_PATH,
trust_remote_code=True,
padding_side="right", # 右侧填充，避免生成错误
truncation=True
)

# 加载模型（自动适配 RTX 5090 GPU）
model = AutoModelForCausalLM.from_pretrained(
MODEL_PATH,
trust_remote_code=True,
device_map="auto", # 自动分配 GPU/CPU，优先使用 RTX 5090
torch_dtype=torch.float16, # 显存优化，32GB GPU 足够运行
load_in_8bit=False, # 不量化，保证生成效果
low_cpu_mem_usage=True # 降低 CPU 内存占用
).eval() # 推理模式，禁用 Dropout 确保结果稳定

print("\n✅ 模型加载完成！输入 'quit' 退出对话，输入提示词即可开始交互～")
return tokenizer, model

def chat_loop(tokenizer, model):
"""控制台循环交互"""
while True:
prompt = input("\n请输入提示词：")
if prompt.lower().strip() == "quit":
print("👋 退出对话，感谢使用！")
break
if not prompt.strip():
print("❌ 提示词不能为空，请重新输入～")
continue

# 构建输入（适配 Qwen 模型的 Prompt 格式）
inputs = tokenizer(
prompt,
return_tensors="pt",
truncation=True,
max_length=8192 # 匹配 Qwen 模型最大序列长度
).to(model.device)

# 生成回答（无梯度计算，节省显存）
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=1024, # 最大生成 1024 个字符
temperature=0.7, # 随机性：0-1，值越大越灵活
top_p=0.95, # 采样阈值：过滤低概率词汇
do_sample=True, # 启用采样生成
eos_token_id=tokenizer.eos_token_id, # 结束标记
pad_token_id=tokenizer.pad_token_id, # 填充标记
repetition_penalty=1.1 # 重复惩罚，减少废话
)

# 解码并提取回答（去除输入提示词）
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
response = response.replace(prompt, "").strip()

# 打印结果
print(f"\n📢 模型回答：\n{response}")

if __name__ == "__main__":
try:
tokenizer, model = load_model()
chat_loop(tokenizer, model)
except Exception as e:
print(f"\n❌ 运行出错：{str(e)}")
print("请检查：1. 模型文件是否完整；2. 依赖包是否安装正确；3. 显存是否充足")

五、启动模型并交互

1. 运行脚本

python3 /root/qwen_chat.py

首次启动：需编译 CUDA 内核，耗时约 5-10 分钟，耐心等待即可；
后续启动：直接加载缓存，耗时 1-2 分钟。

2. 交互示例

正在加载 Qwen-7B-Chat 模型...（首次启动较慢，约5-10分钟，请耐心等待）

✅ 模型加载完成！输入 'quit' 退出对话，输入提示词即可开始交互～

请输入提示词：介绍一下自己
📢 模型回答：
我是字节跳动研发的 Qwen-7B-Chat 大模型，基于 Transformer 架构训练而成，支持多轮对话、信息查询、创意生成等多种功能。我具备较强的语言理解和生成能力，能够根据你的需求提供准确、流畅的回答，适用于日常交流、学习辅助、工作协作等场景～

请输入提示词：quit
👋 退出对话，感谢使用！

六、本地调用（远程访问云主机模型）

若需从本地电脑调用云主机上的模型，可通过 FastAPI 搭建简单 API 服务：

1. 安装 API 依赖

pip3 install fastapi uvicorn pydantic -i https://pypi.tuna.tsinghua.edu.cn/simple
2. 创建 API 服务脚本 qwen_api.py

from fastapi import FastAPI, HTTPException from pydantic import BaseModel from transformers import AutoModelForCausalLM, AutoTokenizer import torch

app = FastAPI(title="Qwen-7B-Chat API") MODEL_PATH = "/root/models/Qwen-7B-Chat"

# 预加载模型（启动服务时初始化） tokenizer, model = None, None @app.on_event("startup") def startup(): global tokenizer, model tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, trust_remote_code=True, device_map="auto", torch_dtype=torch.float16 ).eval()

# 请求模型 class PromptRequest(BaseModel): prompt: str

@app.post("/generate") async def generate(request: PromptRequest): try: inputs = tokenizer(request.prompt, return_tensors="pt").to(model.device) with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=1024, temperature=0.7, top_p=0.95) response = tokenizer.decode(outputs[0], skip_special_tokens=True).replace(request.prompt, "").strip() return {"prompt": request.prompt, "response": response} except Exception as e: raise HTTPException(status_code=500, detail=str(e))

if __name__ == "__main__": import uvicorn # 允许外部访问（云主机公网IP可访问） uvicorn.run(app, host="0.0.0.0", port=8000)

3. 启动 API 服务

# 后台运行服务（断开终端不影响）
nohup python3 /root/qwen_api.py > qwen_api.log 2>&1
4. 本地电脑调用脚本 local_client.py

import requests

# 替换为云主机的公网IP（共绩算力平台可查看） API_URL = "http://云主机公网IP:8000/generate"

def call_qwen(prompt): try: response = requests.post(API_URL, json={"prompt": prompt}, timeout=60) if response.status_code == 200: return response.json()["response"] else: return f"调用失败：{response.text}" except Exception as e: return f"网络错误：{str(e)}"

if __name__ == "__main__": while True: prompt = input("请输入提示词（输入'quit'退出）：") if prompt.lower() == "quit": break result = call_qwen(prompt) print(f"\n模型回答：\n{result}\n")

七、常见问题排查（零兼容冲突保障）显存（OOM）：解决方案：修改脚本中 torch_dtype=torch.float16 为 torch_dtype=torch.int8（8bit 量化），或减少 max_new_tokens 至 512。模型加载慢：原因：首次启动需编译 CUDA 内核，属于正常现象。优化：保持云主机不重启，后续启动直接复用缓存。 API** 服务无法访问**：检查云主机防火墙：共绩算力需在平台控制台开放 8000 端口；确认云主机公网 IP 正确（平台实例详情页可查看）。中文乱码：解决方案：在脚本开头添加编码声明 # -*- coding: utf-8 -*-，确保终端编码为 UTF-8。八、总结本方案完全放弃易冲突的 vllm 库，采用 Transformers + ModelScope 组合，从依赖选择、模型下载到脚本编写均经过实测验证，无任何版本兼容问题，可直接在共绩算力 RTX 5090 上一次部署成功。无论是控制台本地交互，还是本地电脑远程调用，都能稳定运行，彻底解决之前的依赖冲突、CUDA 适配等痛点。

共绩科技云主机是一款面向 AI 开发者、科研团队及企业用户的高性能 GPU 算力服务，致力于为用户提供丰富的 GPU 资源选择、极速部署体验和企业级服务保障，助力 AI 创新与高效开发。还在等什么呢？快去部署自己的大模型吧

愿你在这纷繁世间，能时常收获微小而确定的幸福，如春日微风轻拂面庞，所有的疲惫与烦恼都能被温柔以待，内心永远充盈着安宁与慰藉。

至此，文章已至尾声，而您的故事仍在续写，不知您对文中所叙有何独特见解？期待您在心中与我对话，开启思想的新交流。