9、Kubeflow 安装与规划全解析

Kubeflow安装与规划详解

最新推荐文章于 2025-10-02 14:23:27 发布

h0i1j2k3l

最新推荐文章于 2025-10-02 14:23:27 发布

阅读量64

点赞数

CC 4.0 BY-SA版权

分类专栏： Kubeflow实战：从本地到云端的机器学习平台文章标签： Kubeflow Kubernetes Nvidia DGX

本文链接：https://blog.youkuaiyun.com/h0i1j2k3l/article/details/150749122

Kubeflow实战：从本地到云端的机器学习平台专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Kubeflow 安装与规划全解析

1. Kubernetes 在 Nvidia DGX 服务器中的应用

Kubernetes 对于 Nvidia DGX 服务器而言，是一种能让用户高效地在集群中分配工作的实用方式。例如，提交一个深度学习（DL）训练任务，请求使用 8 个 GPU，Kubernetes 会在集群中有可用 GPU 时相应地调度该任务。任务完成后，其他任务可以使用相同的 GPU。另外，还可以设置一个长期服务来接收实时输入数据并输出推理结果。

部署 Kubernetes 并将 DGX 服务器组成集群需要一些设置，但这比直接让用户访问单个机器更可取。Kubernetes 会处理工作调度，用户无需自行确保预留服务器。它还能拆分单个节点，使多个用户可以同时使用。这一切确保了 GPU 得到尽可能高效的利用。用户对集群的访问仍可管理，某些节点可标记为特权使用，特定任务可优先使用资源，任务也可写入网络存储。

通常，如果在本地使用 TensorFlow 和 GPU，可以设置 TensorFlow 配置以直接在 GPU 上运行。但在 DGX - 1 上的 Kubeflow 和 GPU 上运行时，只需设置带有特定标志的自定义作业 CRD YAML 文件以及内置 CUDA 依赖项的容器即可。