1. 由于loss反向传播中出现Nan值,由于前向传播和反向传播中函数对应定义域的差异
--检查loss设置是否合理
2.梯度爆炸
这个可能要一一排除,可能是激活函数的设置,可能是输入没有归一化。
1. 由于loss反向传播中出现Nan值,由于前向传播和反向传播中函数对应定义域的差异
--检查loss设置是否合理
2.梯度爆炸
这个可能要一一排除,可能是激活函数的设置,可能是输入没有归一化。
您可能感兴趣的与本文相关的镜像
GPT-oss:20b
GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景
1517
870

被折叠的 条评论
为什么被折叠?