原博客:论文阅读理解 - (Deeplab-V3)Rethinking Atrous Convolution for Semantic Image Segmentation - 优快云博客 https://blog.youkuaiyun.com/zziahgf/article/details/75314719
DeepLabv3 论文比较了多种捕获多尺度信息的方式:
(a)图像金字塔:将输入图片放缩成不同比例,分别应用在 DCNN 上,将预测结果融合得到最终输出。
(b)编码-解码器:利用 Encoder 阶段的多尺度特征,运用到 Decoder 阶段上恢复空间分辨率,代表工作有 FCN、SegNet、PSPNet 等工。【FCN中反卷积的做法】
(c)上下文模块(context module):在原始模型的顶端增加额外的模块,例如 DenseCRF,捕捉像素间长距离信息。【DenseCRF的具体做法?】
(d)空间金字塔池化:使用具有不同采样率和多种视野的卷积核来多尺度的捕捉对象。
atrous rate r 表示对输入信号进行采样的步长( stride)取不同值的情况:
最后的deeplabv3结构:
图中的(a)部分为空洞卷积空间金字塔池化,一个1×11×1卷积和三个3×33×3的采样率为rates={6,12,18}的空洞卷积,滤波器数量为256,包含BN层。针对output_stride=16的情况
图中的(b)部分为图像池化操作,将特征做全局平均池化,经过卷积,再融合