10分钟私有部署Deepseek-R1-0518,打造团队专属AI助手

背景

随着大模型技术的爆发式发展,企业对高性能语言模型的私有化部署需求日益迫切。Deepseek-R1-0518 作为 DeepSeek 系列的旗舰模型,在代码生成、数学推理、多语言理解等基准测试中表现卓越,堪称当前开源大模型中的“全能选手”。

为帮助开发者和企业快速构建专属AI能力,阿里云计算巢推出Deepseek-R1-0518一键部署方案,无需复杂配置即可在 10分钟内完成私有化部署,真正实现“开箱即用”的高效体验。详情可参考用户部署文档

为什么选择Deepseek-R1-0518一键部署方案?

⚡ 极速部署,效率翻倍
  • 10分钟完成全流程:从环境配置到服务启动,全程自动化操作,告别繁琐的手动调试。
📦 开箱即用,零门槛上手
  • 预置标准化环境:容器镜像预装CUDA、PyTorch、DeepSeek模型权重及依赖库,无需手动安装。
🚀 高性能优化,企业级稳定
  • 阿里云GPU异构团队优化:提供模型高性能推理优化,确保Qwen3在企业级场景中实现高可用。
🌐 灵活扩展,适配多场景
  • 单机部署 vs 分布式集群:从小规模团队到千人级企业,支持按需扩展。

本方案支持一键部署的模型

Qwen系列

  • Qwen/Qwen3-8B
  • Qwen/Qwen3-14B
  • Qwen/Qwen3-32B
  • Qwen/Qwen3-235B-A22B
  • Qwen/QwQ-32B
  • Qwen/Qwen2.5-32B-Instruct

Deepseek系列

  • deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
  • deepseek-ai/DeepSeek-R1-Distill-Llama-70B
  • deepseek-ai/DeepSeek-R1-0518(双机版)
  • deepseek-ai/DeepSeek-R1(双机版)
  • deepseek-ai/DeepSeek-V3(双机版)

Cosmos系列

  • nv-community/Cosmos-Reason1-7B

部署流程

  1. 单击部署链接。选择单机版,选择DeepSeek-R1-0528-Qwen3-8B。根据界面提示填写参数,可根据需求选择是否开启公网,可以看到对应询价明细,确认参数后点击下一步:确认订单
    (可选)选择双机版,DeepSeek-R1-0518模型,可部署DeepSeek-R1-0518满血版。DeepSeek-R1-0518模型推理需约700GB大小的GPU显存,目前未提供单实例部署方案。请通过售前咨询提交工单申请两台GU8TF规格的实例进行部署。
  2. 点击下一步:确认订单后可以看到价格预览,随后可点击立即部署,等待部署完成。DeepSeek-R1-0528-Qwen3-8B部署需要约7分钟,DeepSeek-R1-0518需要约30分钟。
  3. 等待部署完成后,就可以开始使用服务了。点击服务实例名称,进入服务实例详情,使用Api调用示例即可访问服务。如果是内网访问,需保证ECS实例在同一个VPC下。

使用说明

更多使用详情请参考部署文档

公网API访问

复制Api调用示例,在本地终端中粘贴Api调用示例即可。默认为流式响应,将stream改为false即可关闭。content中为用户所提问题。

内网API访问

复制Api调用示例,在资源标签页的ECS实例中粘贴Api调用示例即可。也可在同一VPC内的其他ECS中访问。默认为流式响应,将stream改为false即可关闭。content中为用户所提问题。

查询模型部署参数

  1. 进入服务实例点击日志管理,找到资源类型为ALIYUN::ECS::RunCommand,复制关联ID后点击关联ID进入云助手控制台

  1. 进入命令执行结果,搜索执行ID后点击查看

  1. 点击执行信息可查看具体部署参数

自定义模型部署参数

如果您有自定义的模型部署参数的需求,可以在部署服务实例后,按照如下操作步骤进行修改。

  1. 远程连接,登入ECS实例。
  2. 执行下面的命令,将模型服务停止。
sudo docker stop vllm
sudo docker rm vllm
  1. 请参考本文档中的 查询模型部署参数部分,获取模型部署实际执行的脚本。
  2. 下面是vllm的参考脚本,您可参考参数注释自定义模型部署参数,修改实际执行的脚本。
docker run -d -t --net=host --gpus all \
 --entrypoint /bin/bash \
 --privileged \
 --ipc=host \
 --name vllm \
 -v /root:/root \
 egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-pytorch2.5.1-cuda12.4-ubuntu22.04 \
 -c "pip install --upgrade vllm==0.8.5 && # 可自定义版本,如 pip install vllm==0.7.1
 export GLOO_SOCKET_IFNAME=eth0 && # 采用vpc进行网络通信所需环境变量,勿删改
 export NCCL_SOCKET_IFNAME=eth0 && # 采用vpc进行网络通信所需环境变量,勿删改
 vllm serve /root/llm-model/${ModelName} \
 --served-model-name ${ModelName} \
 --gpu-memory-utilization 0.98 \ # Gpu占用率,过高可能导致其他进程触发OOM。取值范围:0~1
 --max-model-len ${MaxModelLen} \ # 模型最大长度,取值范围与模型本身有关。
 --enable-chunked-prefill \
 --host=0.0.0.0 \
 --port 8080 \
 --trust-remote-code \
 --api-key "${VLLM_API_KEY}" \ # 可选,如不需要可去掉。
 --tensor-parallel-size $(nvidia-smi --query-gpu=index --format=csv,noheader | wc -l | awk '{print $1}')" # 使用GPU数量,默认使用全部GPU。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值