典型常见的基于知识蒸馏的目标检测方法总结一

总结来源:TPAMI 2023: When Object Detection Meets Knowledge Distillation: A Survey 收录的方法

[4] NeurIPS 2017: Learning efficient object detection models with knowledge distillation

在这里插入图片描述
在这里插入图片描述

三种知识蒸馏损失:

第一种:分类子任务的交叉熵蒸馏损失

在这里插入图片描述

回归子任务的bounded L2 regression loss,Lb only penalizes the network when the error of the student is larger than that of the teacher

在这里插入图片描述

中间层的特征蒸馏损失:作者使用L1距离

在这里插入图片描述

[9] JSTARS 2021:Learning slimming SAR ship object detector through network pruning and knowledge distillation

在这里插入图片描述

Three modules called distillation of backbone feature, classification head, and bounding box regression head constitute the proposed distillation framework, and three different levels of knowledge are adaptively transferred from cumbersome network to the lightweight one.

[11] TNNLS 2024:Collaborative knowledge distillation via multiknowledge transfer

在这里插入图片描述

LRD,关系蒸馏损失,探索两个instance之间和三个instance之间的距离

LKL,logits蒸馏损失,KL散度

LSD,logits的自蒸馏损失,KL散度

LCE,交叉熵损失,与ground truth的任务损失

[14] ICIP 2017:Low-light pedestrian detection from RGB images using multi-modal knowledge distillation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

[16] ECCV Workshops 2018:Object detection at 200 frames per second

基于YOLO目标检测算法,进行知识蒸馏。对于YOLO算法的三种损失函数,即objectness损失,classification损失,还有regression损失。分别把教师模型的预测当成伪的gt,并运用相应的任务损失作为知识蒸馏的损失函数

在这里插入图片描述

[17] CVPR 2019:Distilling object detectors with fine-grained feature imitation

提出了一种细粒度的特征模仿方法,该方法利用了特征响应的跨位置差异。我们的直觉是,检测器更关注靠近目标物体的局部区域。因此,在靠近目标物体的锚点位置上的特征响应差异揭示了 “教师” 模型倾向于如何进行泛化的重要信息。我们设计了一种新颖的机制来确定这些位置,并让 “学生” 模型在这些位置上模仿 “教师” 模型,以获得性能提升。

在这里插入图片描述

如何生成mask:对于每个预定的anchor计算与gt的IoU得到潜在目标区域的mask
imitation loss:L2损失

在这里插入图片描述

[22] ICCV Workshops 2021:Photon-Limited Object Detection Using Non-Local Feature Matching and Knowledge Distillation

方法:教师模型是photon-abundant的clean image训练的检测器。学生模型是photon-limited的noisy image训练的检测器

在这里插入图片描述

蒸馏方法:对特征进行L1损失

在这里插入图片描述

总的损失:学生模型的分类交叉熵损失 + 学生模型的回归损失 + L1知识蒸馏损失

[24] CVPR 2021:Multi-scale aligned distillation for low-resolution detection

在这里插入图片描述

第一步:训练多尺度图像金字塔网络的教师模型,基线方法是FCOS,两个FCOS的输出特征通过C-FF进行跨level特征融合后得到
第二步,训练单尺度的学生模型,学生模型的损失函数包括FCOS目标检测损失加上知识蒸馏损失,即教师模型的特征PsT,与学生模型的特征Ps-mS进行L1蒸馏损失

在这里插入图片描述

[33] CVPR 2021:Distilling Knowledge via Knowledge Review

在这里插入图片描述
在这里插入图片描述

设计了知识蒸馏的跨stage的学习方式,即学生模型的高层次特征与前一个stage的特征进行融合之后,再与教师的相应stage的特征进行知识蒸馏。即论文中所说的 the student high-level stage has the great capacity to learn useful information from the teacher’s low-level features

[35] CVPR 2021:There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge

在这里插入图片描述

蒸馏方法:对多个模态的教师模型的特征进行通道注意力之后求和得到多教师Alignment的特征表示,然后对多教师Alignment的特征表示和学生特征进行L2归一化,之后使用KL散度作为知识蒸馏损失

在这里插入图片描述

[36] AAAI 2020:Towards Oracle Knowledge Distillation with Neural Architecture Search

在这里插入图片描述
在这里插入图片描述

论文中提出的方法:最优知识蒸馏(LOD)鼓励 “学生” 网络通过仅模仿预测正确类别的模型的平均预测结果来实现集成模型的最优预测,如图 1(b)所示。在没有正确模型的情况下,我们会让 “学生” 网络去拟合真实标签。由于最优预测所给出的准确率总是优于平均预测的准确率,经过训练的 “学生” 网络有可能超越采用模型平均和 / 或多数投票的 “教师” 模型。

[39] ICCV 2021:Self-knowledge distillation with progressive refinement of targets

在这里插入图片描述

对于第t轮次的学生训练阶段,模型的损失函数为t-1轮次学生的预测logits和label的加权之和

在这里插入图片描述

[43] TII 2023:Multilevel Attention-Based Sample Correlations for Knowledge Distillation

提出了一种基于注意力的relation知识表征,并设计了基于注意力表征的rela
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值