- 优化器,例如SGD,adam
- 学习率,乘以衰减系数
- dropout层,防止过拟合
(第一跑模型不加dropout,后期调优在LSTM后添加dropout层) - 变量初始化(正交分布初始化,正态分布初始化,均匀分布初始化)
- 训练次数(验证集loss不减少则停止)
- 正则化(LR)
- 预训练(word2vec)
- 激活函数(sigmoid计算量大,饱和区梯度消失;tanh梯度消失;ReLU解决梯度消失但某些神经元可能永远不会激活,leaky ReLU可以解决ReLU问题,但没有完全证明leaky ReLU好于ReLU)
- 模型选择(CNN对轮廓敏感,RNN对连续序列敏感)
DL:调优trick
最新推荐文章于 2022-10-12 11:34:25 发布
294

被折叠的 条评论
为什么被折叠?



