【AAAI 2021】跨层知识蒸馏:Cross-Layer Distillation with Semantic Calibration

该博客介绍了AAAI 2021论文中的SemCKD方法,解决知识蒸馏中层间语义不匹配问题。通过注意力机制,每个学生层自适应地从教师模型的多层中学习知识,提高模型压缩的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址:

https://arxiv.org/abs/2012.03236

代码地址:

https://github.com/DefangChen/SemCKD

主要问题:

目前的知识蒸馏算法中,中间层的语义在不同的网络中可能会有所不同,而层的人工关联可能会导致某些教师学生层对之间的语义不匹配而导致效果不佳

(跟这一篇:【AAAI 2021】基于Attention的知识蒸馏:Knowledge Distillation via Attention-based Feature Matching出发点一致)

主要思路:

为了解决上述问题,作者提出了跨层知识蒸馏的语义校准(SemCKD),该方法通过注意机制自动为每个学生层的教师模型分配适当的目标层,通过学习到的注意力分布,每个学生层从教师模型中提取包含在多层中的知识,而不是一个固定的中间层,以便在训练中进行适当的跨层监督

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BIT可达鸭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值