深度学习问题 batch_descriptor: {count: 0 feature_map_count: 64 spatial: 7 7 4 value_min: 0.000000 value_

今生有幸.~

于 2021-09-02 17:42:42 发布

阅读量359

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习问题记录文章标签： batch 深度学习 tensorflow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/For_learning/article/details/120066583

在Keras或Tensorflow进行单机多GPU分布式训练时，如果遇到batch_descriptor错误，通常是由于最后一个batch的样本数少于GPU数量。解决方法是在构建dataset时，使用`batch()`方法并设置`drop_remainder=True`，丢弃不足分配的最后一个batch，以避免训练中断。这样可以确保每个GPU都有足够的样本进行训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习问题 batch_descriptor: {count: 0 feature_map_count: 64 spatial: 7 7 4 value_min: 0.000000 value_max: 0.000000 layout: BatchDepthYX}

问题描述

Keras/Tensorflow在进行分布式（单机多GPU）训练时，出现如下问题，导致模型训练中止。

batch_descriptor: {count: 0 feature_map_count: 64 spatial: 7 7 4 value_min: 0.000000 value_max: 0.000000 layout: BatchDepthYX}

原因

上述问题是由于分布式训练过程中，存在一个batch，其样本数量小于GPU数量，导致程序异常终止。

eg：样本数量共177个，batch size为16，GPU数量为2，此时最后一个batch只含一个样本，不足以分在两个GPU上进行训练，故报错中止训练。

解决办法

以Keras为例，构建dataset实例，通过batch()方法分batch：

train_dataset = train_dataset

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。