1. 总述
M2Det 是AAAI 2019年的文章,出自北大之手,one-stage网络,官方给出的其在COCO上的AP达到了44.2。
网络架构是基于FPN的思想进行设计的,很有脑洞的一点是作者在 FPN 的基础上提出了 MLFPN( Multi-Level Feature Pyramid Network )。所谓 MLFPN,可以将其理解为将原本 FPN 框架中不同深度的层替换成一个小的 FPN 模块,即FPN套FPN。同时,作者还引入了 SE block,对不同深度的特征赋予了权重。这是 M2Det 的两个创新点。
2.网络结构
backbone直接选用了VGG-16和Resnet-101。MLFPN模块接在backbone之后,detection out 用了SSD的方式。
MLFPN由三个模块组成,即特征融合模块(FFM),细化U形模块(TUM)和按比例缩放特征聚合模块(SFAM)。
TUM模块就是FPN的结构,每个TUM模块输出不同尺度的feature maps。MLFPN中包含多个TUM模块级联的结构。
FFM包含两个子模块:FFMv1子模块负责将backbone中不同深度和尺寸的feature maps进行融合,得到一个统一尺度的Base feature。FFMv2子模块负责将前一个TUM模块的输出和Base feature进行融合,送入下一个TUM模块。
SFAM模块负责将不同TUM模块的输出按尺度拼接,并经过一个SE block,最后输出特征金字塔。
在实际的网络中,使用了6种尺度和8个深度:6种尺度表示最后输出的特征金字塔为6个尺度,即TUM模块的输出也是6个尺度;8个深度表示MLFPN种总共级联了8个TUM模块,提取了深度为8的FPN feature maps。