ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained Language Models

828 篇文章

已下架不支持订阅

本文介绍ReAugKD,一种结合知识库的预训练语言模型知识蒸馏框架。通过教师和学生模型的嵌入空间对齐,提升学生模型的泛化能力。在GLUE基准上取得最佳性能,但受限于教师嵌入的访问和检索成本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained
Language Models》的翻译。

ReAugKD:预训练语言模型的检索增强知识蒸馏

摘要

知识蒸馏(KD)是在低延迟环境中部署大规模预训练语言模型的最有效方法之一,通过将大规模模型中包含的知识转移到较小的学生模型中。以前的KD方法使用教师生成的软标签和中间激活来将知识单独转移到学生模型参数。在本文中,我们表明,以教师的软标签和预测的知识库形式访问非参数记忆可以进一步提高学生的能力,提高泛化能力。为了使学生能够有效地从知识库中检索,我们提出了一种新的具有损失函数的检索增强KD框架,该框架将教师和学生嵌入空间中的关系知识对齐。我们通过大量实验表明,我们的检索机制可以在GLUE基准上实现最先进的任务特定知识蒸馏性能。

1 引言

2 相关工作

3 方法

4 实验结果

5 结论

在本文中,我们提出了ReAugKD,这是一个具有检索机制的知识蒸馏框架,在GLUE基准测试上显示出最先进的性能。未来,我们计划利用教师提供的更多信息来扩展知识库,并将其扩展到其他任

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值