【DL】Keras框架调用多个GPU并行训练，并保存模型

最新推荐文章于 2024-11-01 14:57:20 发布

原创最新推荐文章于 2024-11-01 14:57:20 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

Bug修复&解决方案同时被 2 个专栏收录

28 篇文章

订阅专栏

深度学习

24 篇文章

订阅专栏

本文介绍了如何在Keras框架中使用多GPU进行数据并行训练的方法，包括配置多GPU环境、实现多GPU并行训练的过程及注意事项。还讨论了在使用ModelCheckpoint时可能遇到的问题及其解决办法。

多GPU训练可以在一定程度上提高训练的效率，Keras在以TensorFlow为底层的时候，可以方便的调用多GPU进行训练。其训练的原理是将一个神经网络在多块GPU中进行初始化，并且将一个batch的数据分配到不同的GPU中，反向传播结束后，再使用CPU进行合并更新参数。

举个例子:
同时使用两块GPU，batch_size=32的话，Keras会将16个给0号GPU，另外16个给1号GPU，训练结束后将二者拼接为一个32的batch并进行反向传播更新参数。

多GPU其实分为两种使用情况：数据并行和设备并行。

数据并行将目标模型在多个设备上各复制一份，并使用每个设备上的复制品处理整个数据集的不同部分数据。

Keras在 keras.utils.multi_gpu_model 中提供有内置函数，该函数可以产生任意模型的数据并行版本，最高支持在8片GPU上并行。

数据并行利用多块GPU同时训练多个batch数据，运行在每块GPU上的模型为同一个神经网络，网络结构完全一样，并且共享模型参数

设备并行是在不同设备上运行同一个模型的不同部分，当模型含有多个并行结构，例如含有两个分支时，这种方式很适合。

我们大多数时候要用到的都是数据并行。

这里就给出数据并行的多GPU训练示例：

from keras.utils.training_utils import multi_gpu_model   #导入keras多GPU函数

model = get_model()
parallel_model = multi_gpu_model(model, gpus=2) # 设置使用2个gpu，该句放在模型compile之前
parallel_model.compile(loss='categorical_crossentropy', optimizer=Adam(), metrics=['accuracy'])
hist = parallel_model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs_num, validation_data=(x_test, y_test), verbose=1, callbacks=callbacks)

使用多 gpu 并行训练并使用 ModelCheckpoint() 可能遇到的问题：

报错（楼主尚未遇到）
可以正常训练，保存模型，但是，进行测试时，权重混乱，预测失败。（目前遇到过）

当需要使用Keras的checkpoint的功能的时候，使用如下函数。注意：初始化的参数model，就是单个的model，而不是用于多GPU训练的parallel_model。

class ParallelModelCheckpoint(ModelCheckpoint):
    def __init__(self,model,filepath, monitor='val_loss', verbose=0,
                 save_best_only=False, save_weights_only=False,
                 mode='auto', period=1):
        self.single_model = model
        super(ParallelModelCheckpoint,self).__init__(filepath, monitor, verbose,save_best_only, save_weights_only,mode, period)
 
    def set_model(self, model):
        super(ParallelModelCheckpoint,self).set_model(self.single_model)

调用如下：

checkpoint = ParallelModelCheckpoint(model, save_path, monitor='val_auc', verbose=1, save_best_only=True, save_weights_only=False, mode='max')
 
callbacks = [check_point, early_stopping, tbCallBack]
 
model.fit(x_train, y_train,
          batch_size=config.batch_size,
          epochs=config.nb_epoch, 
          verbose=config.verbose, 
          shuffle=True,
          validation_data=(x_valid, y_valid),
          callbacks=callbacks)

总体上本篇博客的思想就是：楼主遇到一个bug，keras框架下，单卡训练模型，保存模型，加载测试模型，正常；但是，双卡训练模型，保存模型正常，在最后测试的时候出现问题，主要是因为使用Keras的checkpoint的功能的时候需要写一个class，上述代码已给出，当然还有其他的解决方案，请看这里，here或者这里点我！！！