10分钟私有部署Deepseek-R1-0518，打造团队专属AI助手

原创已于 2025-07-10 15:50:58 修改 · 1k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #Deepseek

于 2025-06-06 15:47:01 首次发布

计算巢 ComputeNest 专栏收录该内容

43 篇文章

订阅专栏

背景

随着大模型技术的爆发式发展，企业对高性能语言模型的私有化部署需求日益迫切。Deepseek-R1-0518 作为 DeepSeek 系列的旗舰模型，在代码生成、数学推理、多语言理解等基准测试中表现卓越，堪称当前开源大模型中的“全能选手”。

为帮助开发者和企业快速构建专属AI能力，阿里云计算巢推出Deepseek-R1-0518一键部署方案，无需复杂配置即可在 10分钟内完成私有化部署，真正实现“开箱即用”的高效体验。详情可参考用户部署文档。

为什么选择Deepseek-R1-0518一键部署方案？

⚡ 极速部署，效率翻倍

10分钟完成全流程：从环境配置到服务启动，全程自动化操作，告别繁琐的手动调试。

📦 开箱即用，零门槛上手

预置标准化环境：容器镜像预装CUDA、PyTorch、DeepSeek模型权重及依赖库，无需手动安装。

🚀 高性能优化，企业级稳定

阿里云GPU异构团队优化：提供模型高性能推理优化，确保Qwen3在企业级场景中实现高可用。

🌐 灵活扩展，适配多场景

单机部署 vs 分布式集群：从小规模团队到千人级企业，支持按需扩展。

本方案支持一键部署的模型

Qwen系列：

Qwen/Qwen3-8B
Qwen/Qwen3-14B
Qwen/Qwen3-32B
Qwen/Qwen3-235B-A22B
Qwen/QwQ-32B
Qwen/Qwen2.5-32B-Instruct

Deepseek系列：

deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
deepseek-ai/DeepSeek-R1-Distill-Llama-70B
deepseek-ai/DeepSeek-R1-0518（双机版）
deepseek-ai/DeepSeek-R1（双机版）
deepseek-ai/DeepSeek-V3（双机版）

Cosmos系列：

nv-community/Cosmos-Reason1-7B

部署流程

单击部署链接。选择单机版，选择DeepSeek-R1-0528-Qwen3-8B。根据界面提示填写参数，可根据需求选择是否开启公网，可以看到对应询价明细，确认参数后点击下一步：确认订单。
（可选）选择双机版，DeepSeek-R1-0518模型，可部署DeepSeek-R1-0518满血版。DeepSeek-R1-0518模型推理需约700GB大小的GPU显存，目前未提供单实例部署方案。请通过售前咨询或提交工单申请两台GU8TF规格的实例进行部署。
点击下一步：确认订单后可以看到价格预览，随后可点击立即部署，等待部署完成。DeepSeek-R1-0528-Qwen3-8B部署需要约7分钟，DeepSeek-R1-0518需要约30分钟。
等待部署完成后，就可以开始使用服务了。点击服务实例名称，进入服务实例详情，使用Api调用示例即可访问服务。如果是内网访问，需保证ECS实例在同一个VPC下。

使用说明

更多使用详情请参考部署文档。

公网API访问

复制Api调用示例，在本地终端中粘贴Api调用示例即可。默认为流式响应，将stream改为false即可关闭。content中为用户所提问题。

内网API访问

复制Api调用示例，在资源标签页的ECS实例中粘贴Api调用示例即可。也可在同一VPC内的其他ECS中访问。默认为流式响应，将stream改为false即可关闭。content中为用户所提问题。

查询模型部署参数

进入服务实例点击日志管理，找到资源类型为ALIYUN::ECS::RunCommand，复制关联ID后点击关联ID进入云助手控制台

进入命令执行结果，搜索执行ID后点击查看

点击执行信息可查看具体部署参数

自定义模型部署参数

如果您有自定义的模型部署参数的需求，可以在部署服务实例后，按照如下操作步骤进行修改。

远程连接，登入ECS实例。
执行下面的命令，将模型服务停止。

sudo docker stop vllm
sudo docker rm vllm

请参考本文档中的查询模型部署参数部分，获取模型部署实际执行的脚本。
下面是vllm的参考脚本，您可参考参数注释自定义模型部署参数，修改实际执行的脚本。

docker run -d -t --net=host --gpus all \
 --entrypoint /bin/bash \
 --privileged \
 --ipc=host \
 --name vllm \
 -v /root:/root \
 egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-pytorch2.5.1-cuda12.4-ubuntu22.04 \
 -c "pip install --upgrade vllm==0.8.5 && # 可自定义版本，如 pip install vllm==0.7.1
 export GLOO_SOCKET_IFNAME=eth0 && # 采用vpc进行网络通信所需环境变量，勿删改
 export NCCL_SOCKET_IFNAME=eth0 && # 采用vpc进行网络通信所需环境变量，勿删改
 vllm serve /root/llm-model/${ModelName} \
 --served-model-name ${ModelName} \
 --gpu-memory-utilization 0.98 \ # Gpu占用率，过高可能导致其他进程触发OOM。取值范围:0~1
 --max-model-len ${MaxModelLen} \ # 模型最大长度，取值范围与模型本身有关。
 --enable-chunked-prefill \
 --host=0.0.0.0 \
 --port 8080 \
 --trust-remote-code \
 --api-key "${VLLM_API_KEY}" \ # 可选，如不需要可去掉。
 --tensor-parallel-size $(nvidia-smi --query-gpu=index --format=csv,noheader | wc -l | awk '{print $1}')" # 使用GPU数量，默认使用全部GPU。