Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers
使用大模型训练,可以摒弃传统的训练方式(等到收敛才停止训练)而stop early,因为大模型可以在更短的时间内降低验证误差。这样一来,训练收敛节省的时间弥补了大量参数的计算代价。
此外,预训练好的大模型可以放心的进行量化和剪枝,量化是以低精度格式存储模型权重,剪枝是将某些神经网络的权值设置为零。因为实验证明,大模型在压缩之后测试准确度鲁棒性很高。通过压缩模型,使得在inference阶段,原先预训练的大模型速度不比小模型慢。
总之,最好的模型:越大越好、早停、狠狠压缩