深度学习 问题 batch_descriptor: {count: 0 feature_map_count: 64 spatial: 7 7 4 value_min: 0.000000 value_max: 0.000000 layout: BatchDepthYX}
问题描述
Keras/Tensorflow在进行分布式(单机多GPU)训练时,出现如下问题,导致模型训练中止。
batch_descriptor: {count: 0 feature_map_count: 64 spatial: 7 7 4 value_min: 0.000000 value_max: 0.000000 layout: BatchDepthYX}
原因
上述问题是由于分布式训练过程中,存在一个batch,其样本数量小于GPU数量,导致程序异常终止。
eg:样本数量共177个,batch size为16,GPU数量为2,此时最后一个batch只含一个样本,不足以分在两个GPU上进行训练,故报错中止训练。
解决办法
以Keras为例,构建dataset实例,通过batch()方法分batch:
train_dataset = train_dataset