防止过拟合 正则化DropOutearly stopping 防止梯度消失、梯度爆炸 Batch Normalization梯度裁剪 学习率衰减 加速 长度差不多的放在一个batch pad的结果不算入loss 加入权重,不考虑pad结果