paper:Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis
本文主要贡献在以下:
结合深度图像,提升仅用RGB图像分割的mIOU
设计一种结构,可用tensorRT实现,进而可在NX板上提升分割效率,比如有限计算能力和电池量的机器人场景
改进的ResNet-based encoder和decoder. 降低计算量,提升效率
本文的语义分割结合了RGB图像和深度图像 as input, 主要针对室内场景,
RGB图像和深度图在encoder中进入两个不同的branch, 然后再合并,结构如下图:

看起来很复杂的样子,其实分解开来也没那么复杂,
因为如果feature在多个stage中进行fuse,分割结果会提升,所以可以看到深度图和RGB图的特征在中间多个stage都有RGB-D Fusion.
encode以ResNet作为backbone, 为了提升效率,并没有像deepLabv3那样用空洞卷积,而是用strided convolution.
在encoder的末尾,feature map的size会比input image 缩小32倍,用的是ResNet34,
但是每个3x3卷积被替换成图中紫色部分的block, 即把3x3分解成了3x1 和 1x3, 加ReLU在中间,
这个模块叫做Non-Bottleneck-1D-Block,说是这样可以缩短推断时间,提高performance。
RGB Fusion用的是Squeeze and Excitation模块。具体在图中左下角绿色模块。
Context module是解决ResNet的有限感受野问题,把不同scales的feature结合,类似Pyramid Pooling Module in

最低0.47元/天 解锁文章
1305

被折叠的 条评论
为什么被折叠?



