【研究学习】知识蒸馏和模型蒸馏技术

起源,发展

Knowledge Distillation,KD,2015

Hinton在2015年提出知识蒸馏。(基础,奠定开山之作)
使用教师模型的输出logits作为软标签,通过调整温度参数来让学生模型学习。
论文:Distilling the Knowledge in a Neural Network

模型压缩,2018

结合量化蒸馏的技术,这样可以在压缩模型大小的同时保持性能。
论文:Model compression via distillation and quantization

Patient Knowledge Distillation,Patient-KD,2019

针对BERT模型的一种蒸馏方法,学生从教师多个中间层学习,不仅限于学习最后一层,属于中间层蒸馏的一种。
参考链接:什么是Patient-KD?DistilBERT?

BERT预训练模型对资源的高需求导致其很难被应用在实际问题中,为缓解这个问题,论文中提出了Patient Knowledge Distillation(Patient KD)方法,将原始大模型压缩为同等有效的轻量级浅层网络。
作者提出一种假设,在知识蒸馏的过程中过拟合会导致泛化能力不良。为缓解这个问题,论文中提出一种**“耐心”师生机制**,即让Patient-KD中的学生模型从教师网络的多个中间层进行知识提取,而不是只从教师网络的最后一层输出中学习。
论文:Patient Knowledge Distillation for BERT Model Compression

Patient-KD中提出如下两个知识蒸馏策略:

  1. PKD-Skip: 从每k层学习,这种策略是假设网络的底层包含重要信息,需要被学习到。
  2. PKD-Last: 从最后k层学习,假设教师网络越靠后的层包含越丰富的知识信息。

尽管这两种策略都比vanilla KD有所改进,但PKD-Skip的表现略好于PKD-Last。作者推测,这可能是由于每k层的信息提炼捕获了从低级到高级的语义,具备更丰富的内容和更多不同的表示,而只关注最后k层往往会捕获相对同质的语义信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bosenya12

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值