Relational Knowledge Distillation
Relational Knowledge Distillation
TL;DR
teacher 和 student feature 可能有 gap,student 应该学习 teacher 样本之间的关系而不是 teacher 样本本身
区别于直接蒸馏teacher 和student的特征信息,本文将teacher样本间的距离和角度以及student样本间的距离和角度作为knowledge
knowledge:relation

distance loss
-
instance 蒸馏是
对于 teacher 一个 batch 内的 N个 sample
student 一个 batch 内的 N个sample
这两个求一个 L2 或者是其他 -
rkd是
对于 teacher 一个 batch 内的 N个 sample,分别求和其他sample的距离(这里用的 L2),得到一个 NN的矩阵,代表一个 sample 和其他 sample的关系
student 一个 batch 内的 N个sample,也同样得到一个 NN矩阵
这两个 N*N 的矩阵求一个距离(这里用的 smooth L1)作为蒸馏 loss
angle loss
<