DSSINet
师兄ICCV的论文哈哈。有人问到了模型效率问题,参数量还可以,但是flop很多,速度比较慢。实验室的另一个工作讨论了crowd counting的一些模型的运行效率:
Efficient Crowd Counting via Structured Knowledge Transfer
DSSINet overview
模型非常清晰,三个不同分辨率的图片经过三个网络支干,不断进行卷积&下采样,融合不同支干网络的特征,并小特征不断进行上采样再与之前的特征融合(类似FPN的模型流程)。
三条网络,最后一层都是VGG中的Conv4_3
本文主要贡献在:
- 特征的融合方式上,不是简单的加权叠加或者通道拼在一起。
使用了基于CRFs的Structured Feature Enhancement Module(图中的SFEM)
- 一种在不同尺寸下,对局部区域输出高质量density maps的loss计算方式—— a Dilated Mul-tiscale Structural Similarity loss
模块分析
论文中3.1节overview中表述了SFEM模块的作用,
下面具体介绍
SFEM
SFEM在不同scale,refine the features,并与CRFs model具有互补性
用CRFs model将特征refine:
然后这是特征融合方式???
就是这样稍微数学一点的融合方式??
反正最后,得到了这样的一个迭代公式(7):
f i f_i