Abstract & Introduction & Related Work 研究任务 预训练语言模型 已有方法和相关工作 BERT 面临挑战 创新思路 超参数的选择对最终结果有重大影响 实验结论 bert的训练是不充足的,我们改进了训练方式达到了sota Experimental Setup Implementation Adam的 ϵ \epsilon ϵ 项非常敏感,在某些情况下,我们在调整它之后获得了更好的性能或改善了稳定性。同样地,我们发现在大批量训练时,设置