作者从标签平滑正则化的角度和 KD 关系的角度提出以下两个论点:KD 是一种可学习的标签平滑正则化。标签平滑正则化为 KD 提供了一个虚拟的 Teacher 模型。基于这些分析,本文进一步提出了一种无教师知识蒸馏方法,并在分类任务上验证了其性能。
本文目录
1 把知识蒸馏理解为正则化:从标签平滑正则化的角度重新审视知识蒸馏
(来自 NUS,华为诺亚方舟实验室)
1.1 Tf-KD 论文解读
1.1.1 背景和动机
1.1.2 探索性实验
1.1.3 标签平滑正则化和知识蒸馏
1.1.4 无教师知识蒸馏策略
1.1.5 实验结果