《Distilling Object Detectors with Fine-grained Feature Imitation》论文笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/m_buddy/article/details/103748874

本文介绍了如何使用知识蒸馏改进轻量级目标检测网络的性能，重点在于选择有效的特征区域（Fine-Gained）进行指导。通过在Faster R-CNN基础上进行改进，使用教师网络的特征和RPN输出结合，指导学生网络学习，实现在VGG11上比基线提升15%的性能。实验表明，这种方法简单但有效。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码地址：Distilling-Object-Detectors

1. 概述

导读：这篇文章是在two stage检测网络Faster RCNN基础上使用知识蒸馏改进亲轻量级网络性能。其中的核心思想是teacher网络中需要传递给student网络的应该是有效的信息，而非无效的背景区域信息，因而文章将backbone输出的特征图与RPN网络输出的结果进行组合，从而得到student网络应该学习的特征，从而指导student网络产生对应的分布从而提升检测的性能。其在VGG11上使用文章的方法实现了相对baseline 15%的提升，整体上文章的思想比较简单，但是实际证明还是很有效的。

在下图中展示了文章网络的大致结构，其中可以看出文章使用Fine-Gained特征图来指导student网络的学习。
在这里插入图片描述
以下参考：CVPR19-检测模型蒸馏
之前有两个工作有类似的探索，但是都比较局限于特定框架，且未公布代码，对于具体实现存在一定疑惑。

1）论文：Learning efficient object detection models with knowledge distillation，文中使用两个蒸馏的模块：第一，全feature imitation（由FitNets: Hints for Thin Deep Nets 文中提出，用于检测模型蒸馏）, 但是实验发现全feature imitation会导致student 模型performance反而下降，推测是由于检测模型feature 比较大，不同于classification，这其中包含大量的background, 存在大量的noise, 最后通过per-channel vairance 的验证基本确定这个情况。第二，对detection head的蒸馏，这里存在一个很大的问题，就是teacher 和student 的proposal set 不相同，如何进行匹配以便于施加distillation文中没有详述。
2）论文：Mimicking very efficient network for object detection.
这篇文章report 的蒸馏效果确实不错，但是框架仍然比较限定，且蒸馏区域取决于rpn的输出。