
重新训练,打印训练过程,下划线部分是输出,圈起来的是loss,发现是由于某个sample的输出超级大,导致了loss超级大,最终网络崩掉。接下来打算采用梯度裁剪的方法来防止这种情况。
神经网络训练遇到神经网络参数全部为nan的情况
最新推荐文章于 2024-12-10 21:12:01 发布
本文探讨了在训练过程中遇到的大样本问题,如何通过实施梯度裁剪技术来稳定网络并避免损失过大。作者计划应用此方法来优化模型训练过程,防止网络崩溃。
314





