Kubeflow 安装与规划全解析
1. Kubernetes 在 Nvidia DGX 服务器中的应用
Kubernetes 对于 Nvidia DGX 服务器而言,是一种能让用户高效地在集群中分配工作的实用方式。例如,提交一个深度学习(DL)训练任务,请求使用 8 个 GPU,Kubernetes 会在集群中有可用 GPU 时相应地调度该任务。任务完成后,其他任务可以使用相同的 GPU。另外,还可以设置一个长期服务来接收实时输入数据并输出推理结果。
部署 Kubernetes 并将 DGX 服务器组成集群需要一些设置,但这比直接让用户访问单个机器更可取。Kubernetes 会处理工作调度,用户无需自行确保预留服务器。它还能拆分单个节点,使多个用户可以同时使用。这一切确保了 GPU 得到尽可能高效的利用。用户对集群的访问仍可管理,某些节点可标记为特权使用,特定任务可优先使用资源,任务也可写入网络存储。
通常,如果在本地使用 TensorFlow 和 GPU,可以设置 TensorFlow 配置以直接在 GPU 上运行。但在 DGX - 1 上的 Kubeflow 和 GPU 上运行时,只需设置带有特定标志的自定义作业 CRD YAML 文件以及内置 CUDA 依赖项的容器即可。
2. 数据中心考虑因素
GPU 消耗大量电力并产生大量热量。根据每个机架的可用电力和散热情况,GPU 的数量(特别是 DGX 的数量)会有所不同。在 42U 机架中通常只能放置两个 DGX。除了 DGX - 1,Nvidia 还提供 DGX - 2 和 DGX - A100。
根据布局和存储情况,还需要进行额外的考虑。例如,如果使用通过
Kubeflow安装与规划详解
超级会员免费看
订阅专栏 解锁全文
4721

被折叠的 条评论
为什么被折叠?



