实战大规模GPU集群推理部署

最新推荐文章于 2025-05-07 21:30:00 发布

大靠山

最新推荐文章于 2025-05-07 21:30:00 发布

阅读量3.9k

点赞数 25

文章标签：人工智能语言模型自然语言处理 rpa 自动化

本文链接：https://blog.youkuaiyun.com/m0_59235245/article/details/140087364

版权

最近在Tesla V100 32GB 8GPUs x 1000 nodes的大规模集群的工作中，收获不少宝贵一手经验——

【硬件问题】

首先了解到，在这样规模的集群下，GPU硬件本身出问题的几率很大。

第一类问题是ECC，数据校验错误。

RuntimeError: CUDA error: uncorrectable ECC error encountered

CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.

数据校验错误那是内存存储出了问题。

第二类是AsyncEngineDeadError：

vllm.engine.async_llm_engine.AsyncEngineDeadError: Background loop has errored already.

这个虽然是vLLM抛出的错误(Error)，具体原因不明，但似乎跟GPU密切相关。很可能也是GPU有硬件问题。

其实用nvidia-smi查看GPU信息时，在有故障GPU的node上，就会执行得非常卡顿，且能看到这样的端倪：

【vLLM vs Ollama】

vLLM针对具体GPU在调试阶段的可视度比Ollama似乎好一些，需要你去理解大模型的各参数及GPU的相关性，比如以Tesla V100启动会报一下的错：

ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla V100-SXM2-32GB GPU has compute capability 7.0. You can use float16 instead by explicitly setting the`dtype` flag in CLI, for example: --dtype=half.

这里附上常见GPU的Compute Capability列表：

Compute capability (version)	GPUs
10.0	B100、B200、GeForce RTX 5090、5080
9.0	H100、H200
8.9	GeForce RTX 4090、4080、4070、4060
8.6	GeForce RTX 3090、3080、3070、3060
8.0	A100、A30
7.5	GeForce RTX 2080、2070、2060、1660
7.0	Tesla V100
6.1	Tesla P40、GeForce GTX 1080、1070、1060
6.0	Tesla P100

由此可见Tesla V100的Compute Capability是7.0，也就是不能用Bfloat16进行计算，要对Bfloat16减半转换为float16，所以运行时的dtype是half或者float16，否则vLLM会报错。

在国内需要设置环境变量VLLM_USE_MODELSCOPE=True，然后就可以启动一个vLLM大模型API服务了：

$ CUDA_VISIBLE_DEVICES=0,1 nohup python -m vllm.entrypoints.openai.api_server --model pooka74/LLaMA3-8B-Chat-Chinese --dtype=half --port 8000 &> ~/logs/vllm.log &

两种推理工具都可以用环境变量CUDA_VISIBLE_DEVICES来控制对具体单个或多个GPU的使用。

【分布式推理】

分布式无非是“分而治之”的思路解决计算、存储等问题。一个GPU装得下，当然不会退而求其次，因为处理分布式架构相关的成本是不低的，主要包括：通讯开销、任务调度和资源分配、内存管理及容错性。

Ollama可以完全透明的将大模型部署在同一个node的多个GPU上，vLLM稍微麻烦一点点，就是需要带上参数tensor-parallel-size：

python -m vllm.entrypoints.api_server \`    `--model qwen/Qwen2-72B-Instruct \`    `--tensor-parallel-size 4

唯一Ollama不支持，但是vLLM支持的，是通过Ray进行跨node的分布式部署。Ray是一种基于Python的分布式编程框架[2]。Ray框架提供了内存管理策略，包括分布式内存共享和对象存储；Ray还具备容错机制，比如对象重建和GCS容错。

pip install ray

需要选择一个头节点head node，并将子节点worker nodes指向它。

# On head node``ray start --head``   ``# On worker nodes``ray start --address=<ray-head-address>

但是你真的需要这种分布式推理架构吗？首先即使节点之间网络采用了InfiniteBand或者光纤（万兆），跟总线上的PCIe和NVLink差了1-3个数量级[3]。

NVLink是一种NVidia的专属技术，用于连接多个GPU。这样的GPU需要Compute Capability 8.0以上。上图可以看出，其连接带宽比PCIe还高了一个数量级。

所以，除非只是为了验证Ray的分布式能力，或者真的别无它法，跨node的分布式推理真是一个鸡肋。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述