《Distilling Object Detectors with Fine-grained Feature Imitation》论文笔记

细粒度特征模仿:提升目标检测器性能
本文介绍了如何使用知识蒸馏改进轻量级目标检测网络的性能,重点在于选择有效的特征区域(Fine-Gained)进行指导。通过在Faster R-CNN基础上进行改进,使用教师网络的特征和RPN输出结合,指导学生网络学习,实现在VGG11上比基线提升15%的性能。实验表明,这种方法简单但有效。
部署运行你感兴趣的模型镜像

代码地址:Distilling-Object-Detectors

1. 概述

导读:这篇文章是在two stage检测网络Faster RCNN基础上使用知识蒸馏改进亲轻量级网络性能。其中的核心思想是teacher网络中需要传递给student网络的应该是有效的信息,而非无效的背景区域信息,因而文章将backbone输出的特征图与RPN网络输出的结果进行组合,从而得到student网络应该学习的特征,从而指导student网络产生对应的分布从而提升检测的性能。其在VGG11上使用文章的方法实现了相对baseline 15%的提升,整体上文章的思想比较简单,但是实际证明还是很有效的。

在下图中展示了文章网络的大致结构,其中可以看出文章使用Fine-Gained特征图来指导student网络的学习。
在这里插入图片描述
以下参考:CVPR19-检测模型蒸馏
之前有两个工作有类似的探索,但是都比较局限于特定框架,且未公布代码,对于具体实现存在一定疑惑。

  • 1)论文:Learning efficient object detection models with knowledge distillation,文中使用两个蒸馏的模块:第一,全feature imitation(由FitNets: Hints for Thin Deep Nets 文中提出,用于检测模型蒸馏), 但是实验发现全feature imitation会导致student 模型performance反而下降,推测是由于检测模型feature 比较大,不同于classification,这其中包含大量的background, 存在大量的noise, 最后通过per-channel vairance 的验证基本确定这个情况。第二,对detection head的蒸馏,这里存在一个很大的问题,就是teacher 和student 的proposal set 不相同,如何进行匹配以便于施加distillation文中没有详述。
  • 2)论文:Mimicking very efficient network for object detection.
    这篇文章report 的蒸馏效果确实不错,但是框架仍然比较限定,且蒸馏区域取决于rpn的输出。

2. 方法设计

2.1 Fine-Gained区域提取

文章给出对于有效特征区域提取的流程见下图所示:
在这里插入图片描述
对于backbone输出的特征图,假设其大小为 W ∗ H W*H WH,网络中使用的anchor数量为 K K K,则文章对于Fine-Gained区域的提取步骤可以归纳如下(上图中的右边所示):

  • 1)对于给定的特征图按照设置好的anchor信息,生成 W ∗ H ∗ K W*H*K WHK个框,将这些框与GT计算IoU;
  • 2)对于这些IoU值,在其中选择最大的IoU值M,在此基础上引入一个参数 ψ ∈ [ 0 , 1 ] \psi \in[0,1] ψ[0,1],文中将这个参数设置为经验值 ψ = 0.5 \psi=0.5 ψ=0.5,这个参数与最大IoU值相乘得到一个IoU的阈值 F = ψ ∗ M F=\psi * M F=ψM,用以控制什么样框(框对应的特征)会被采纳参与知识蒸馏;
  • 3)对于所有生成框使用阈值 F F F进行过滤,之后将这些过滤之后的值进行组合得到一个掩码 I I I,后面计算蒸馏损失也是按照这个掩码进行的。

2.3 蒸馏损失

这里注意到student网络在引入teacher label进行学习的时候是添加了一个feature adaptation的,这里添加这个的原因有两点:

  • 1)student与teacher在对应特征层级上其channel是不对应的,这里需要进行维度平衡;
  • 2)既是在维度匹配的前提下,若是直接将损失加在student的backbone上会导致蒸馏效果的减弱,从而得到次优的效果;

这里对于蒸馏的损失是在对应的feature上使用平方损失计算得到的,因而将之前选择到的Fine-Gained的特征引入,得到损失的定义为:
L i m i t a t i o n = 1 2 N p ∑ i = 1 W ∑ j = 1 H ∑ c = 1 C I i j ( f a d a p ( s ) i j c − t i j c ) 2 L_{imitation}=\frac{1}{2N_p}\sum_{i=1}^{W}\sum_{j=1}^{H}\sum_{c=1}^{C}I_{ij}(f_{adap}(s)_{ijc}-t_{ijc})^2 Limitation=2Np1i=1Wj=1Hc=1CIij(fadap(s)ijctijc)2
其中, N p = ∑ i = 1 W ∑ j = 1 H I i , j N_p=\sum_{i=1}^W\sum_{j=1}^HI_{i,j} Np=i=1Wj=1HIi,j。因而,总的损失函数被描述为:
L = L g t + λ L i m i t a t i o n L=L_{gt}+\lambda L_{imitation} L=Lgt+λLimitation

3. 实验结果

文章的方法在几个不同backbone上进行实验得到的结果,其结果显示文章的方法总体带来的收益还是很不错的:
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Python3.10

Python3.10

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

Distilling Image Dehazing with Heterogeneous Task Imitation method 是一种利用知识蒸馏技术来提升图像去雾性能的方法。这种方法的核心思想是通过模仿不同但相关的任务的知识,将教师模型中的有用信息转移到学生模型中[^2]。 在具体实现上,该方法设计了一个多任务学习框架,其中包含了多个辅助任务,这些任务虽然与图像去雾不直接相关,但是能够提供有助于去雾任务的特征表示。通过这种方式,学生模型不仅学习到了如何执行主要的去雾任务,同时也学会了如何处理那些辅助任务,从而增强了整体的泛化能力和鲁棒性。 此外,这种方法还采用了对抗训练策略,以进一步提高生成图像的质量。通过引入一个判别器来区分真实无雾图像和生成的去雾图像,促使生成器产生更加逼真的结果。 值得注意的是,这种基于异构任务模仿的图像去雾蒸馏方法不需要明确地估计视差,这减少了计算复杂度,并且使得算法更适合于实际应用场合。它提供了一种新颖的方式来整合来自不同领域的知识,为解决单幅图像去雾问题提供了新的视角。 由于其开源特性,研究人员可以访问提供的代码库来进行实验、调整参数以及探索更多可能的应用场景。 ```python # 示例伪代码展示基本结构 class DistillationModel: def __init__(self): # 初始化教师模型和学生模型 self.teacher_model = ... self.student_model = ... def train(self, data_loader): for images in data_loader: # 从教师模型获取软标签 teacher_outputs = self.teacher_model(images) # 学生模型前向传播 student_outputs = self.student_model(images) # 计算损失函数,包括主任务损失和辅助任务损失 loss = calculate_loss(student_outputs, teacher_outputs) # 反向传播更新权重 update_weights(loss) def calculate_loss(student, teacher): # 损失函数通常包含主任务损失和知识蒸馏损失 main_task_loss = ... kd_loss = ... return main_task_loss + kd_loss ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值