目录
Spatial Pyramid Pooling是多尺度特征融合吗?
加权求和(注意力机制、self-attention、门控机制等)
前言
卷积神经网络(CNN)在计算机视觉领域已经展现了卓越的性能,在图像分类、语义分割、目标检测领域得到了广泛的应用。数据驱动卷积神经网络获得的特征相比于传统手工制作的特征,质量有着明显的提升。因此,基于卷积神经网络的视觉识别研究更侧重于网络结构,而非特征工程。因此,如何设计更好的网络结构已经成为当前目标检测领域的一个关键问题。
在目标检测的过程中,背景信息直接影响检测效果。目前大量的目标检测网络利用的是上下文信息的关联性。但是由于网络结构较为复杂,速度较慢,无法进行端到端训练。为了解决这些问题,一些结构较为简单的网络例如FPN(feature pyramid networks),通过最邻近上采样和横向连接,融合来自高低两个方向的特征图,构造一组语义信息差异较小的多尺度特征图。因此,基于卷积神经网络的视觉识别研究更侧重于网络结构,而非特征工程。因此,如何设计更好的网络结构已经成为当前目标检测领域的一个关键问题。
在最先进的(SoTA)语义分割CNN中,全卷积网络(FCN)用卷积层替换了传统分类网络中使用的全连接层,以获得更好的分割结果。上下文信息融合已被证明是一种有效的工具,可用于提高分割精度。ParseNet通过连接全局池化特征来捕获全局上下文。PSPNet引入了空间金字塔池化(SPP)模块来收集不同尺度的上下文信息。Atrous SPP(ASPP)应用不同的空洞卷积来捕获多尺度上下文信息,而不会引入额外的参数。