大规模训练与部署模型全攻略
在机器学习领域,当我们需要处理大规模数据和复杂模型时,单设备训练往往难以满足需求。此时,我们可以借助多种策略在多设备和多服务器上进行模型训练,还能利用云平台的强大资源来简化训练过程。下面将详细介绍这些方法。
1. 数据并行与中央存储策略
如果想尝试使用带有集中参数的数据并行,可将 MirroredStrategy 替换为 CentralStorageStrategy :
distribution = tf.distribute.experimental.CentralStorageStrategy()
可以选择设置 compute_devices 参数,指定要用作工作节点的设备列表(默认使用所有可用的 GPU);也可以选择设置 parameter_device 参数,指定存储参数的设备(默认使用 CPU,若只有一个 GPU 则使用该 GPU)。
2. TensorFlow 集群上的模型训练
TensorFlow 集群是一组并行运行的 TensorFlow 进程,通常分布在不同机器上,它们相互通信以完成某些任务,如训练或执行神经网络。集群中的每个 TF 进程称为一个任务或 TF 服务器,它有 IP 地址、端口和类型(也称为角色或作业),类型可以是 “worker”、”chief”、”ps”(参数服务器)或 “evaluator”:
- worker
超级会员免费看
订阅专栏 解锁全文
1892

被折叠的 条评论
为什么被折叠?



