目录
问题描述:
搭建网络后,loss一直为NAN
排查问题:
-
调整学习率为0,loss还为NAN---->与学习率无关
-
模型内关于除、log等可能出现异常的操作,加上 1e-8,loss还为NAN------>基本排除与模型运算有关
-
排查输入数据,将特征、标签遍历完,未发现异常值与空值
-
排查导入的词向量模型,发现内部存在大量空值与NAN------>貌似找到问题所在
解决问题:
导入词向量模型后,遍历并去除异常值,重新训练后发现loss回复正常值。解决
总结:
loss出现NAN时,一般会首先考虑学习率和batch_size是否设置过大,排除非此问题后,则检查模型内部或输入数据是否有问题。