ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation（自动驾驶领域轻量级模型）

最新推荐文章于 2025-06-04 09:19:28 发布

Tom Hardy

最新推荐文章于 2025-06-04 09:19:28 发布

阅读量2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_29462849/article/details/91469348

ESPNet是一种高效的空间金字塔卷积模块，适用于轻量级语义分割任务，尤其适合移动端。模型包括Efficient spatial pyramid和HFF模块，通过1x1卷积降低维度并使用空洞卷积扩大感受野。HFF模块解决了空洞卷积的gridding artifacts问题。在参数量少的情况下，ESPNet在VOC数据集上表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要思想

基于传统卷积模块设计，提出一种高效空间金字塔卷积模块（ESP Module），有助于减小模型运算量和内存、功率消耗，以提高在终端设备上的适用性。这款模型和MobileNet系列、ShuffNet系列相似，都是轻量级模型，可以部署到移动端。

模型具体结构

如下图所示，模型主要有两个模块构成，一个是Efficient spatial pyramid模块，一个是HFF模块。
在这里插入图片描述

Efficient spatial pyramid

这个部分由两个子部分构成，前面部分是逐点卷积，就是采用K个1x1xM的小卷积核对原图进行卷积操作，1x1卷积的作用其实就是为了降低维度，这样就可以减少参数，这也是轻量级模型的思路。后面的部分是空洞卷积，即在没有进行下采样（pooling）的操作下，扩大感受野。使用不同膨胀率的卷积核，可以得到不同感受野下的feature，这一点有点类似金字塔池化，所以这个模块也叫ESP。

参数计算

下面来计算下一共包含的参数，其实在效果上，以这种轻量级的网络作为backbone效果肯定不如那些重量级的，比如Resnet，但是在运行速度上有很大优势。

如上图所示，对Efficient spatial pyramid第一部分来说，d个1x1xM的卷积核，将M维的输入feature map降至d维。此时参数为： $M*{N/K}$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。