众妙zm-优快云博客

原创《WGAN-GP 训练失败？BatchNorm 和 batch_size 的隐秘关系》

Hello啊，大家好！最近使用Pytorch训练了WGAN-GP网络，数据集是动漫头像(3x64x64)，由于找到了tensorflow的实现，但是实现过后却发现Loss的值非常奇怪，如图：数据集（注意这个batch_size,后面要讲到而我的代码与原tensorflow代码的区别不大，就产生了很强烈的疑问——为什么结构一样，数据集也差不多，但是他的训练没有问题，我的就这么奇怪呢？下面加上代码。

2025-08-07 22:03:28 647

原创 pytorch损失函数redution参数使用sum和mean，none对于训练有什么不一样的影响

可以看到最后结果是与batch size有关的，也就是说我们设置learning rate的时候与batch size的大小有很大的关系，意味着梯度下降时需要的learning rate要基于batch size来考虑。由此看到在反向传播时并不会自动根据batch求平均，而是就这么水灵灵的求出来了，sum得出的答案正好是mean*batch。，在学习过程中我产生了一个疑问，这三个参数对于训练有什么影响，在反向传播的时候难道根据batch自动求平均了吗？则没有考虑这个的必要。那么为什么会这样呢？

2024-08-02 17:01:32 552

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 《WGAN-GP 训练失败？BatchNorm 和 batch_size 的隐秘关系》

原创 pytorch损失函数redution参数使用sum和mean，none对于训练有什么不一样的影响

空空如也

空空如也

原创《WGAN-GP 训练失败？BatchNorm 和 batch_size 的隐秘关系》