问题描述 模型训练的过程中损失值很大,且反复震荡不下降 解决方法 给模型都加参数初始化,权重参数使用 kaiming_uniform_,偏置参数使用0初始化调大dropout率给模型中间层增加BatchNorm/LayerNorm 结果 在改变dropout值和增加归一化层之后,问题没有得到有效解决,但是加入模型参数初始化之后,问题得到了有效解决 结论 最有用的可能是权重参数初始化,也足以看到初始化的重要性