本文是LLM系列文章,针对《ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained
Language Models》的翻译。
摘要
知识蒸馏(KD)是在低延迟环境中部署大规模预训练语言模型的最有效方法之一,通过将大规模模型中包含的知识转移到较小的学生模型中。以前的KD方法使用教师生成的软标签和中间激活来将知识单独转移到学生模型参数。在本文中,我们表明,以教师的软标签和预测的知识库形式访问非参数记忆可以进一步提高学生的能力,提高泛化能力。为了使学生能够有效地从知识库中检索,我们提出了一种新的具有损失函数的检索增强KD框架,该框架将教师和学生嵌入空间中的关系知识对齐。我们通过大量实验表明,我们的检索机制可以在GLUE基准上实现最先进的任务特定知识蒸馏性能。
1 引言
2 相关工作
3 方法
4 实验结果
5 结论
在本文中,我们提出了ReAugKD,这是一个具有检索机制的知识蒸馏框架,在GLUE基准测试上显示出最先进的性能。未来,我们计划利用教师提供的更多信息来扩展知识库,并将其扩展到其他任