论文标题:Structured Knowledge Distillation for Semantic Segmentation
论文地址:https://arxiv.org/abs/1903.04197
这是一篇CVPR2019做语义分割任务的文章,在训练好的大的分割模型上运用知识蒸馏的算法,使得比较小的模型也能提高语义分割的性能。
从上图可以看到,本论文提出的方法能够在不增加参数量和FLOPs的情况下提高小模型上的语义分割性能。
FLOPs: 全称是floating point operations per second,意指每秒浮点运算次数
2. 知识蒸馏策略
在本文中作者提出了下面三种知识蒸馏的策略:(个人理解,这个方法实际是语义分割域适应的思路,而整体的三种蒸馏策略换句话说实际是:像素蒸馏、局部蒸馏、全局蒸馏,从特征分布的角度就是拉近特征分布,从局部到全局分布。这个思想在语义分割域适应里面已经玩烂了,但没想到这个居然可以用到提升小网络性能。)
2.1 pixel-wise distillation
最简单直接的策略,借鉴分类任务上的知识蒸馏算法,将每个pixel看做分类的单位,独立地进行蒸馏
考虑语义分割是有结构的预测任务(每个pixel的结果与它的周围pixel相关),因此提出来下面的两种策略。
2.2 pair-wise distillation
这种策略领用了pair-wise的马尔科夫随机场框架来增强空间labelling的连续性,目标是对齐简单网络(student)和复杂网络(teacher)中学到的pair-wise的相似度。