(一)STDCNet源码解读

最新推荐文章于 2025-09-09 00:51:58 发布

原创

最新推荐文章于 2025-09-09 00:51:58 发布 · 3.7k 阅读

41 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #人工智能 #图像处理

本文详细介绍STDCNet（Short Term Dense Concatenate Network）网络结构及其在实时语义分割任务中的应用。文章涵盖网络的设计理念，包括Detail Guidance辅助训练、Short Term Dense Concatenate模块、Attention Refine Module、Feature Fusion Module等内容，并探讨了网络的训练策略与评估方法。

文章目录

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

1.简介

论文地址：https://arxiv.org/abs/2104.13188

仓库地址:https://github.com/MichaelFan01/STDC-Seg

STDCMNet(Short Term Dense Concatenate Network)网络是美团2021年04月27号提交的论文Rethinking BiSeNet For Real-time Semantic Segmentation中提出的轻量级语义分割网络，该网络是在BiSeNet v1/v2基础上的升级改进。STDCNet主要贡献有两点，一方面是对骨干网络backbone的改进，改成了Dense Concatenate的模块结构，同一个STDC模块中，每个ConvX随着感受野的变大输出的通道数逐渐变少，最后再Concatenate到一起，因此包含更多的特征尺度信息。另一方面是多分支低阶细节信息辅助训练结构，detail information guidance结构只在训练的时候使用，网络训练完成后可以直接舍弃，这种方法相对于之前的BiSeNnet可以减少推理时的计算量。

2.网络结构

在这里插入图片描述

如上图，网络的backbone包含5个stage,第i个stage的输出feature map的尺寸是原来的 $\frac{1}{2^i}$ ,satge 4&5输出的feature map经过ARM(Attention Refine Module)之后包含更多的语义信息，组成context path,前3个stage输出的feature map包含更多的图像细节信息，两者特征融合经SegHead后直接向上最近邻resize输出最终的分割图。Seg Loss使用的是OhemLoss。网络对于低层stage使用Detail Loss做训练，以提升低层stage feature map提取图像细节信息的能力。对于前3个stage输出的feature map使用与SegHead同样结构的Detail Head做处理得到Detail的输出用来计算Detail Loss，**值得注意的是SegHead输出的最终channels数量是分割的类别数，而Detail Head输出的channels数是1,即是边缘的置信度。**计算Detail Loss时，先对ground truth做stride=[1,2,4]的Laplacian Convolution,将不同size的卷积结果再stack到一起，经过3个可训练的1x1的卷积后得到Detail Ground Truth用来计算Detail Loss。根据源码，从网络输出的角度整理出来的网络结构如下图：

2.1 Detail Guidance

在这里插入图片描述

如上图橙色倒金字塔中表示不同stage卷积输出的feature map,从上到小feature map的size逐渐变小，channel逐渐变大。在前几个stage输出的feature map尺度更大，包含了更多的图像细节信息，STDCNet的创新之一就是，增加了Detail Guidance Traning分支，训练时对前几个stage输出的特征图计算loss来提升低层卷积对图像细节提取的能力，这一部分如上图中所示，只在训练时有用，在推理时，直接取低层卷积的feature map与包含更多语义信息的高层卷积feature map做融合，相对于BiSeNet减少了推理时的计算量，提升了模型的推理速度。