《ESPNet v1：Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation》论文笔记

最新推荐文章于 2025-10-22 03:23:13 发布

原创最新推荐文章于 2025-10-22 03:23:13 发布 · 950 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#ESPNet v1

图像&视频分割专栏收录该内容

65 篇文章

订阅专栏

ESPNet v1是针对高分辨率图像的快速语义分割模型，采用Efficient Spatial Pyramid（ESP）模块，通过pointwise convolutions和dilated convolutions提高效率。在GPU上，它比PSPNet快22倍，实现了112FPS的运行速度，并在VOC-2012数据集上达到63.01的IoU。ESPNet包含四种变体结构，通过不同设计提升性能。

代码地址：ESPNet v1

1. 概述

导读：这篇文章提出了在有限资源环境下对高分辨率图像进行快速高效分割的卷积网络ESPNet。ESPNet是基于一个新型的卷积模块（Efficient Spatial Pyramid，ESP），该模块高效且强大。在（标准？）GPU上比PSPNet快22倍，体积却小了180倍，在GPU上可以飚到112FPS。在VOC-2012数据集上达到了63.01的IoU，对效果要求比较高的可以考虑换个方法了。

ESP模块基于卷积因式分解准则将标准的卷积操作分解为两步：pointwise convolutions与spatial pyramid of dilated convolutions，其过程如下图所示：
在这里插入图片描述

第一步：使用pointwise convolutions减少了计算量；
第二步：使用spatial pyramid of dilated convolutions使用不同的膨胀系数去采样特征，增大网络的感受野。这样的结构相比其他的因式分解的方法，如Inception与ResNet，更加高效。
第三步：（主要为HFF特征融合部分）将分组之后卷积得到的结果在相邻组间使用Sum方式融合，之后再将这K个特征Concat起来，再与原始输入Sum得到最后的模块输出。其结构见下图的（b）图；

2. 方法设计

这篇文章的方法主要是围绕提出的ESP模块展开的，这里首先对ESP模块进行分析。

2.1 ESP module

输入的特征图首先经过mobilenet中的depthwise卷积将高维度的特征映射到低维度上。之后空间膨胀卷积金字塔在不同的分组（每个组的特征数量： $d=\frac{N}{K}$ ）上使用不同感受野的膨胀卷积，膨胀卷积在不同组上感受野为 $[(n-1)\cdot 2^{K-1}+1]^2$ 。
在这里插入图片描述
在spatial pyramid of dilated步骤中使用不同膨胀系数的卷积运算是会产生网格效应的，如图2（b）第二列结果图，为了解决这个问题文中引入了HFF特征融合步骤，经过这个模块处理之后得到的结果如图2（b）中第三列所示。