目录
方案2:Google Colab Pro(免费/低成本试探)
一、低成本部署方案(最低约 $0.2/小时)
方案1:按需云GPU(推荐)
适用场景:临时测试、间歇性使用
推荐平台:
-
AutoDL(国内低价首选):A10G(24GB显存)约 1.5元/小时,支持从HuggingFace直接拉取模型。
-
Lambda Labs(国际):A10(24GB)约 $0.3/小时。
操作步骤:
-
租用实例:
-
选择 Ubuntu 20.04 + CUDA 12.1 镜像。
-
最低配置:A10G/A10(24GB显存)(需量化模型,见下文)。
-
-
快速部署脚本(SSH连接后执行):
# 1. 安装依赖 conda create -n qwen python=3.10 -y conda activate qwen pip install transformers accelerate sentencepiece pillow fastapi uvicorn # 2. 下载量化模型(节省显存) from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen2.5-Omni-7B", device_map="auto", torch_dtype="auto", trust_remote_code=True )
-
启动API服务:
复用前文的FastAPI代码,但添加模型量化(需重启实例时持久化模型):
# 使用nohup后台运行 nohup uvicorn api:app --host 0.0.0.0 --port 8000 > log.txt &