本篇文章最大的创新点是提出了一种新的特征融合的方式ASFF,通过学习权重参数的方式将不同层的特征融合到一起,作者证明了这样的方法要优于通过concatenation或者element-wise的方式。
代码:https://github.com/ruinmessi/ASFF
一个更强的YOLOv3 baseline
其实整篇文章能取得如此优秀的效果并不仅仅在于加入了ASFF这种自适应特征融合方式,作者在YOLOv3的基础上吸取了很多优秀的经验,构建了一个非常强劲的目标检测baseline,这个baseline的mAPJ就达到了38,其中包括:
- Guided Anchoring
- Bags of Tricks
- Additional IoU loss
可以看到,这个baseline将yolov3的AP从33%提升到了38%,高达5个点之多。
自适应特征融合方式ASFF
为了充分利用高层特征的语义信息和底层特征的细粒度特征,很多网络结构都会采用FPN的方式输出多层特征,但是无论是类似于YOLOv3还是RetinaNet他们多用concatenation或者element-wise这种直接衔接或者相加的方式,作者认为这样并不能充分利用不同尺度的特征,于是提出了Adaptively Spatial Feature Fusion的自适应