深度学习 问题 batch_descriptor: {count: 0 feature_map_count: 64 spatial: 7 7 4 value_min: 0.000000 value_max: 0.000000 layout: BatchDepthYX}
问题描述
Keras/Tensorflow在进行分布式(单机多GPU)训练时,出现如下问题,导致模型训练中止。
batch_descriptor: {count: 0 feature_map_count: 64 spatial: 7 7 4 value_min: 0.000000 value_max: 0.000000 layout: BatchDepthYX}
原因
上述问题是由于分布式训练过程中,存在一个batch,其样本数量小于GPU数量,导致程序异常终止。
eg:样本数量共177个,batch size为16,GPU数量为2,此时最后一个batch只含一个样本,不足以分在两个GPU上进行训练,故报错中止训练。
解决办法
以Keras为例,构建dataset实例,通过batch()方法分batch:
train_dataset = train_dataset.cache(

在Keras或Tensorflow进行单机多GPU分布式训练时,如果遇到batch_descriptor错误,通常是由于最后一个batch的样本数少于GPU数量。解决方法是在构建dataset时,使用`batch()`方法并设置`drop_remainder=True`,丢弃不足分配的最后一个batch,以避免训练中断。这样可以确保每个GPU都有足够的样本进行训练。
最低0.47元/天 解锁文章
5万+

被折叠的 条评论
为什么被折叠?



