DeepLabV2对主要在V1的基础上做了一些改进。
1.回顾Atrous Convolution
一维时,就如下这个公式所述,
The rate parameter r corresponds to thestride with which we sample the input signal.
r表征了要填进去的0的个数,个数为(r-1)个,所以标准的卷积是r=1,也就是不插0;
二维时如下图所示:
上面一行表示原来的一些方法比如FCN这种,图像的分辨率缩小了,就算增采样之后,最终也只能获取部分的像素点的位置信息。
下面一行,表示采用插了0的卷积核去对原图像进行卷积,尽管filter的size变大了,但是他们只考虑卷积核中非零的值,所以其实the number of filter parameters and the number of operations per position stay constant。
然后作者说的确可以使用一连串的Atrous Convolution来使网络最后输出的结果feature map的分辨率和原始图像的分辨率一样大,但是这样计算量就显得有点大,所以他们是采用了一种混合的方法:
…but this ends up bei