这是一个分布式训练的“角色/副本资源配置”界面。每一行是一个训练角色,每个角色下的字段用来定义它要用多少计算资源。各项分别表示:
PS(Parameter Server)
- 含义:参数服务器,用来集中存放和更新模型参数。常见于参数服务器架构(PS/Worker)。
- 一般做法:通常不需要 GPU,但需要稳定的 CPU 和适当内存。
Worker
- 含义:工作节点,执行前向/反向计算,和 PS 交互梯度与参数。
- 一般做法:是否需要 GPU 取决于你的训练方式;若纯 CPU 训练可在这里配 CPU/内存。
Evaluator
- 含义:评估节点,周期性加载最新权重做验证/评估,不参与参数更新。
- 一般做法:通常副本数少、资源相对小于 Worker。
GPU_Worker
- 含义:需要使用 GPU 的工作节点。
- 一般做法:设置每个副本需要的 GPU 数、CPU 核和内存。
每个角色中的字段含义:
- num:副本数(要启动多少个该角色的实例/Pod/容器)。
- cpu:每个副本分配的 CPU 核数(通常为整数或小数核,单位:核)。
- mem:每个副本分配的内存容量(平台常用 GB,具体以平台单位为准)。
- gpuNum:每个副本分配的 GPU 数量(仅在需要 GPU 的角色上生效)。
- 资源标记(资源标签/资源标记):用于调度的标签或队列标识,把该角色调度到具备对应标签的节点或资源池上。示例:a100、v100、a800-80g、highmem、ssd、bj-cluster-1 等。需要与集群预先配置的标签一致,否则可能调度失败或排队很久。
底部汇总:
- CPU总量:所有角色的 Σ(num × cpu)。
- mem总量:所有角色的 Σ(num × mem)。
- 若界面有 GPU 总量:为 Σ(num × gpuNum)。
分布式训练PS
最新推荐文章于 2025-12-03 18:07:44 发布
1683

被折叠的 条评论
为什么被折叠?



