分布式训练PS

这是一个分布式训练的“角色/副本资源配置”界面。每一行是一个训练角色,每个角色下的字段用来定义它要用多少计算资源。各项分别表示:

  • PS(Parameter Server)

    • 含义:参数服务器,用来集中存放和更新模型参数。常见于参数服务器架构(PS/Worker)。
    • 一般做法:通常不需要 GPU,但需要稳定的 CPU 和适当内存。
  • Worker

    • 含义:工作节点,执行前向/反向计算,和 PS 交互梯度与参数。
    • 一般做法:是否需要 GPU 取决于你的训练方式;若纯 CPU 训练可在这里配 CPU/内存。
  • Evaluator

    • 含义:评估节点,周期性加载最新权重做验证/评估,不参与参数更新。
    • 一般做法:通常副本数少、资源相对小于 Worker。
  • GPU_Worker

    • 含义:需要使用 GPU 的工作节点。
    • 一般做法:设置每个副本需要的 GPU 数、CPU 核和内存。

每个角色中的字段含义:

  • num:副本数(要启动多少个该角色的实例/Pod/容器)。
  • cpu:每个副本分配的 CPU 核数(通常为整数或小数核,单位:核)。
  • mem:每个副本分配的内存容量(平台常用 GB,具体以平台单位为准)。
  • gpuNum:每个副本分配的 GPU 数量(仅在需要 GPU 的角色上生效)。
  • 资源标记(资源标签/资源标记):用于调度的标签或队列标识,把该角色调度到具备对应标签的节点或资源池上。示例:a100、v100、a800-80g、highmem、ssd、bj-cluster-1 等。需要与集群预先配置的标签一致,否则可能调度失败或排队很久。

底部汇总:

  • CPU总量:所有角色的 Σ(num × cpu)。
  • mem总量:所有角色的 Σ(num × mem)。
  • 若界面有 GPU 总量:为 Σ(num × gpuNum)。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值