9、Kubeflow 安装与规划全解析

Kubeflow安装与规划详解

Kubeflow 安装与规划全解析

1. Kubernetes 在 Nvidia DGX 服务器中的应用

Kubernetes 对于 Nvidia DGX 服务器而言,是一种能让用户高效地在集群中分配工作的实用方式。例如,提交一个深度学习(DL)训练任务,请求使用 8 个 GPU,Kubernetes 会在集群中有可用 GPU 时相应地调度该任务。任务完成后,其他任务可以使用相同的 GPU。另外,还可以设置一个长期服务来接收实时输入数据并输出推理结果。

部署 Kubernetes 并将 DGX 服务器组成集群需要一些设置,但这比直接让用户访问单个机器更可取。Kubernetes 会处理工作调度,用户无需自行确保预留服务器。它还能拆分单个节点,使多个用户可以同时使用。这一切确保了 GPU 得到尽可能高效的利用。用户对集群的访问仍可管理,某些节点可标记为特权使用,特定任务可优先使用资源,任务也可写入网络存储。

通常,如果在本地使用 TensorFlow 和 GPU,可以设置 TensorFlow 配置以直接在 GPU 上运行。但在 DGX - 1 上的 Kubeflow 和 GPU 上运行时,只需设置带有特定标志的自定义作业 CRD YAML 文件以及内置 CUDA 依赖项的容器即可。

2. 数据中心考虑因素

GPU 消耗大量电力并产生大量热量。根据每个机架的可用电力和散热情况,GPU 的数量(特别是 DGX 的数量)会有所不同。在 42U 机架中通常只能放置两个 DGX。除了 DGX - 1,Nvidia 还提供 DGX - 2 和 DGX - A100。

根据布局和存储情况,还需要进行额外的考虑。例如,如果使用通过

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值