分布式训练PS

最新推荐文章于 2025-12-03 18:07:44 发布

原创最新推荐文章于 2025-12-03 18:07:44 发布 · 143 阅读

CC 4.0 BY-SA版权

文章标签：

这是一个分布式训练的“角色/副本资源配置”界面。每一行是一个训练角色，每个角色下的字段用来定义它要用多少计算资源。各项分别表示：

PS（Parameter Server）

含义：参数服务器，用来集中存放和更新模型参数。常见于参数服务器架构（PS/Worker）。
一般做法：通常不需要 GPU，但需要稳定的 CPU 和适当内存。

Worker

含义：工作节点，执行前向/反向计算，和 PS 交互梯度与参数。
一般做法：是否需要 GPU 取决于你的训练方式；若纯 CPU 训练可在这里配 CPU/内存。

Evaluator

含义：评估节点，周期性加载最新权重做验证/评估，不参与参数更新。
一般做法：通常副本数少、资源相对小于 Worker。

GPU_Worker

含义：需要使用 GPU 的工作节点。
一般做法：设置每个副本需要的 GPU 数、CPU 核和内存。

每个角色中的字段含义：

num：副本数（要启动多少个该角色的实例/Pod/容器）。
cpu：每个副本分配的 CPU 核数（通常为整数或小数核，单位：核）。
mem：每个副本分配的内存容量（平台常用 GB，具体以平台单位为准）。
gpuNum：每个副本分配的 GPU 数量（仅在需要 GPU 的角色上生效）。
资源标记（资源标签/资源标记）：用于调度的标签或队列标识，把该角色调度到具备对应标签的节点或资源池上。示例：a100、v100、a800-80g、highmem、ssd、bj-cluster-1 等。需要与集群预先配置的标签一致，否则可能调度失败或排队很久。

底部汇总：

CPU总量：所有角色的 Σ(num × cpu)。
mem总量：所有角色的 Σ(num × mem)。
若界面有 GPU 总量：为 Σ(num × gpuNum)。