本文是LLM系列文章,针对《ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained
Language Models》的翻译。
摘要
知识蒸馏(KD)是在低延迟环境中部署大规模预训练语言模型的最有效方法之一,通过将大规模模型中包含的知识转移到较小的学生模型中。以前的KD方法使用教师生成的软标签和中间激活来将知识单独转移到学生模型参数。在本文中,我们表明,以教师的软标签和预测的知识库形式访问非参数记忆可以进一步提高学生的能力,提高泛化能力。为了使学生能够有效地从知识库中检索,我们提出了一种新的具有损失函数的检索增强KD框架,该框架将教师和学生嵌入空间中的关系知识对齐。我们通过大量实验表明,我们的检索机制可以在GLUE基准上实现最先进的任务特定知识蒸馏性能。
1 引言
2 相关工作
3 方法
4 实验结果
5 结论
在本文中,我们提出了ReAugKD,这是一个具有检索机制的知识蒸馏框架,在GLUE基准测试上显示出最先进的性能。未来,我们计划利用教师提供的更多信息来扩展知识库,并将其扩展到其他任务中。
局限性
我们的方法依赖于访问教师嵌入和预测,这在黑匣子蒸馏设置中可能并不总是可能的。检索增强还需要维护一个内存密集型的知识库。检索过程的成本取
本文介绍ReAugKD,一种结合知识库的预训练语言模型知识蒸馏框架。通过教师和学生模型的嵌入空间对齐,提升学生模型的泛化能力。在GLUE基准上取得最佳性能,但受限于教师嵌入的访问和检索成本。
已下架不支持订阅
2115

被折叠的 条评论
为什么被折叠?



