总结来源:TPAMI 2023: When Object Detection Meets Knowledge Distillation: A Survey 收录的方法
[4] NeurIPS 2017: Learning efficient object detection models with knowledge distillation


三种知识蒸馏损失:
第一种:分类子任务的交叉熵蒸馏损失

回归子任务的bounded L2 regression loss,Lb only penalizes the network when the error of the student is larger than that of the teacher

中间层的特征蒸馏损失:作者使用L1距离

[9] JSTARS 2021:Learning slimming SAR ship object detector through network pruning and knowledge distillation

Three modules called distillation of backbone feature, classification head, and bounding box regression head constitute the proposed distillation framework, and three different levels of knowledge are adaptively transferred from cumbersome network to the lightweight one.
[11] TNNLS 2024:Collaborative knowledge distillation via multiknowledge transfer

LRD,关系蒸馏损失,探索两个instance之间和三个instance之间的距离
LKL,logits蒸馏损失,KL散度
LSD,logits的自蒸馏损失,KL散度
LCE,交叉熵损失,与ground truth的任务损失
[14] ICIP 2017:Low-light pedestrian detection from RGB images using multi-modal knowledge distillation



[16] ECCV Workshops 2018:Object detection at 200 frames per second
基于YOLO目标检测算法,进行知识蒸馏。对于YOLO算法的三种损失函数,即objectness损失,classification损失,还有regression损失。分别把教师模型的预测当成伪的gt,并运用相应的任务损失作为知识蒸馏的损失函数

[17] CVPR 2019:Distilling object detectors with fine-grained feature imitation
提出了一种细粒度的特征模仿方法,该方法利用了特征响应的跨位置差异。我们的直觉是,检测器更关注靠近目标物体的局部区域。因此,在靠近目标物体的锚点位置上的特征响应差异揭示了 “教师” 模型倾向于如何进行泛化的重要信息。我们设计了一种新颖的机制来确定这些位置,并让 “学生” 模型在这些位置上模仿 “教师” 模型,以获得性能提升。

如何生成mask:对于每个预定的anchor计算与gt的IoU得到潜在目标区域的mask
imitation loss:L2损失

[22] ICCV Workshops 2021:Photon-Limited Object Detection Using Non-Local Feature Matching and Knowledge Distillation
方法:教师模型是photon-abundant的clean image训练的检测器。学生模型是photon-limited的noisy image训练的检测器

蒸馏方法:对特征进行L1损失

总的损失:学生模型的分类交叉熵损失 + 学生模型的回归损失 + L1知识蒸馏损失
[24] CVPR 2021:Multi-scale aligned distillation for low-resolution detection

第一步:训练多尺度图像金字塔网络的教师模型,基线方法是FCOS,两个FCOS的输出特征通过C-FF进行跨level特征融合后得到
第二步,训练单尺度的学生模型,学生模型的损失函数包括FCOS目标检测损失加上知识蒸馏损失,即教师模型的特征PsT,与学生模型的特征Ps-mS进行L1蒸馏损失

[33] CVPR 2021:Distilling Knowledge via Knowledge Review


设计了知识蒸馏的跨stage的学习方式,即学生模型的高层次特征与前一个stage的特征进行融合之后,再与教师的相应stage的特征进行知识蒸馏。即论文中所说的 the student high-level stage has the great capacity to learn useful information from the teacher’s low-level features
[35] CVPR 2021:There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge

蒸馏方法:对多个模态的教师模型的特征进行通道注意力之后求和得到多教师Alignment的特征表示,然后对多教师Alignment的特征表示和学生特征进行L2归一化,之后使用KL散度作为知识蒸馏损失

[36] AAAI 2020:Towards Oracle Knowledge Distillation with Neural Architecture Search


论文中提出的方法:最优知识蒸馏(LOD)鼓励 “学生” 网络通过仅模仿预测正确类别的模型的平均预测结果来实现集成模型的最优预测,如图 1(b)所示。在没有正确模型的情况下,我们会让 “学生” 网络去拟合真实标签。由于最优预测所给出的准确率总是优于平均预测的准确率,经过训练的 “学生” 网络有可能超越采用模型平均和 / 或多数投票的 “教师” 模型。
[39] ICCV 2021:Self-knowledge distillation with progressive refinement of targets

对于第t轮次的学生训练阶段,模型的损失函数为t-1轮次学生的预测logits和label的加权之和


最低0.47元/天 解锁文章
651

被折叠的 条评论
为什么被折叠?



