TridentNet
文章 | 作者解读
由于目标检测任务中,每张图的目标的大小都是变化的,于是造成对于过于小或者过于大的物体都不好检测,这就是目标检测中的尺度变化问题,一个直接的解决办法是使用图像金字塔。在手工特征时代,直接就是将图像缩放成不同分辨率组成一个金字塔输入给模型,而深度学习时代,以FPN为代表的多尺度方法则是使用多分辨率的特征图来组成金字塔去近似图像金字塔的效果。另外,为了使图像尺度和物体尺度匹配,CVPR2018的SNIP提出scale normalization,就是在不同尺度的图像中选择合适大小的物体拿来训练,比如小/大物体的特征分别从大/小尺度的图像中提取。

不管是图像金字塔还是特征金字塔,思想都是要模型对不同大小的物体能有对应大小的感受野,但两种方法都有各自的缺点。图像金字塔的inference慢,而特征金字塔效果差一些,并且牺牲了不同尺度间的feature consistency。上图c就是本文的设计,利用dilated convolution实现不同的感受野,并且不同分之间除了感受野不一样,参数完全是共享的。