k8s部署满血版Deepseek-R1

最新推荐文章于 2025-04-30 14:16:23 发布

小猪快跑~~

最新推荐文章于 2025-04-30 14:16:23 发布

阅读量992

点赞数 4

分类专栏：大模型文章标签： kubernetes 容器云原生

本文链接：https://blog.youkuaiyun.com/laijianzong/article/details/145559581

版权

大模型专栏收录该内容

2 篇文章

订阅专栏

一、硬件要求

1. 尝试用2台8卡L40，共16卡，单卡48G显存，无法启动

2. 本次部署由2台H20，共16卡，单卡显存96GB

二、模型下载

可从魔搭下载，下载链接，也可以直接从huggingface上下载，建议直接通过魔搭下载，速度有保障。

三、运行方式

官方推荐2种方式，本次使用sglang运行，部署到k8s集群

vLLM:

vllm serve deepseek-ai/DeepSeek-R1 --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

SGLang：

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1 --trust-remote-code --tp 2

四、部署过程

由于单机8卡无法直接运行满血版Deepseek-R1，使用sglang部署需要2个8卡的pod，只有master节点提供服务，基于服务可快速扩缩容等方面进行考虑，总结2种方式优缺点

1、depleyment方式，master，worker各一个，多实例的话就建多个depleyment，最后用个nginx实现负载

2、使用有状态的sts服务，建立无头svc，用于master和worker之间的通讯。master的服务通过nacos注册中心进行暴露

相对而言，方案2更可靠

3、镜像使用sglang官方镜像，参考链接

4、启动脚本改造

##master启动脚本
python3 -m sglang.launch_server --model-path /data/DeepSeek-R1 --tp 16 --dist-init-addr $POD_NAME.deepseek-r1.app.svc.cluster.local:19999 --nnodes 2 --node-rank 0 --trust-remote-code --host 0.0.0.0

##worker启动脚本
POD_NUM=$(echo $POD_NAME | cut -d '-' -f 3) && python3 -m sglang.launch_server --model-path /data/DeepSeek-R1 --tp 16 --dist-init-addr deepseek-r1-$POD_NUM.deepseek-r1.app.svc.cluster.local:19999 --nnodes 2 --node-rank 1 --trust-remote-code --host 0.0.0.0