Keras 单机多卡，多机多卡的使用方式笔记

最新推荐文章于 2024-06-11 10:05:59 发布

原创最新推荐文章于 2024-06-11 10:05:59 发布 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#leetcode #python #算法

学习笔记同时被 2 个专栏收录

121 篇文章

订阅专栏

深度学习

3 篇文章

订阅专栏

本文探讨了在Keras中使用TensorFlow的分布式训练策略，包括数据并行和模型并行两种方式。通过创建MirroredStrategy，可以实现数据并行训练，将一个batch的数据分配到多个GPU上独立计算，然后同步模型参数。在每个epoch结束时，不是选择最低损失的参数，而是合并所有设备的参数以保持同步。这种方式有助于加速训练，但可能因多组初始参数导致训练不充分。分布式训练并不直接解决局部最优问题，而是通过增加总体计算资源来提高训练效率。

单机多卡，多机多卡的使用方式

官方教程：https://keras.io/guides/distributed_training/#singlehost-multidevice-synchronous-training

教程主要内容

分布式计算有两种，一种是数据并行，一种是模型并行
数据并行只需要修改少量代码
模型比较简单的话，并行数据即可
数据并行原理和实现

这里讨论数据并行实现原理

一个batch_size的数据分配到多个设备上面
每个设备独立计算，直到分配的数据计算完毕
合并各个设备上的模型参数，同步之后进行下一个epoch
用mirrored variable object 实现变量的同步，因此要把模型创建和编译的部分放在该类变量的作用域中

在这里插入图片描述

import tensorflow as tf
from tensorflow import keras


# Create a MirroredStrategy.
strategy = tf.distribute.MirroredStrategy()
print('Number of devices: {}'.format(strategy.num_replicas_in_sync))

# Open a strategy scope.
with strategy.scope():
  # Everything that creates variables should be under the strategy scope.
  # In general this is only model construction & `compile()`.
  model = Model(...)
  model.compile(...)

# Train the model on all available devices.
model.fit(train_dataset, validation_data=val_dataset, ...)

# Test the model on all available devices.
model.evaluate(test_dataset)