一、摘要
本文介绍论文《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》,这篇NeurIPS 2019年的论文通过知识蒸馏的方式训练了一个DistilBert,为大模型的压缩和落地提供了可行思路。
译文:
随着大规模预训练模型的迁移学习在自然语言处理(NLP)中日益普及,在计算资源受限的边缘设备或预算有限的情况下运行这些大型模型仍然具有挑战性。在这项工作中,我们提出了一种预训练较小通用语言表示模型的方法,称为 DistilBERT。该模型在各种任务上经过微调后能达到与大型模型相当的性能。虽然先前的大多数研究集中在使用蒸馏构建特定任务模型,但我们在预训练阶段利用知识蒸馏,证明可以将 BERT 模型的大小减少 40%,同时保留其 97% 的语言理解能力,并且推理速度提高 60%。为了利用大型模型在预训练期间学到的归纳偏差,我们引入了一种结合语言建模、蒸馏和余弦距离损失的三元损失。我们更小、更快、更轻的模型在预训练时成本更低,并且我们通过概念验证实验和对比性的设备端研究展示了其在设备端计算的能力。</