【AAAI 2021】跨层知识蒸馏:Cross-Layer Distillation with Semantic Calibration
论文地址:
https://arxiv.org/abs/2012.03236
代码地址:
https://github.com/DefangChen/SemCKD
主要问题:
目前的知识蒸馏算法中,中间层的语义在不同的网络中可能会有所不同,而层的人工关联可能会导致某些教师学生层对之间的语义不匹配而导致效果不佳
(跟这一篇:【AAAI 2021】基于Attention的知识蒸馏:Knowledge Distillation via Attention-based Feature Matching出发点一致)
主要思路:
为了解决上述问题,作者提出了跨层知识蒸馏的语义校准(SemCKD),该方法通过注意机制自动为每个学生层的教师模型分配适当的目标层,通过学习到的注意力分布,每个学生层从教师模型中提取包含在多层中的知识,而不是一个固定的中间层,以便在训练中进行适当的跨层监督