轻量级实时语义分割算法STDC-seg(BiseNetV3)

深图智能

于 2025-03-09 15:49:02 发布

阅读量992

点赞数 12

分类专栏：数字图像处理文章标签：计算机视觉人工智能语义分割

本文链接：https://blog.youkuaiyun.com/evm_doc/article/details/146133173

版权

数字图像处理专栏收录该内容

19 篇文章

订阅专栏

一、摘要

STDC-seg（Short-Term Dense Concatenate Segmentation）是一种针对实时语义分割任务设计的高效网络架构。原始论文《Rethinking BiSeNet For Real-time Semantic Segmentation》，因此，右可以称为BiSeNetV3。其核心目标是通过优化网络结构与特征融合机制，在保持高分割精度的同时显著提升推理速度。STDC-seg基于对BiSeNet的改进，提出了Short-Term Dense Concatenate模块（STDC模块）和Detail Guidance机制，在Cityscapes数据集上实现了71.9% mIoU（250.4 FPS）的优异性能，较现有方法提速45.2%。本文将从算法原理、创新点、模块设计及实验结果等方面展开详细说明。

二、背景

2.1 实时语义分割的挑战

实时语义分割需在有限计算资源下实现像素级分类，常见于自动驾驶、机器人感知等场景。现有方法面临两大挑战：

速度与精度的平衡：轻量级骨干网络（如MobileNet）虽能提升速度，但牺牲了空间细节；多分支架构（如BiSeNet）通过额外路径补充细节，却引入计算冗余。
任务适配性不足：分类任务预训练的骨干网络缺乏对分割任务特性的优化，如多尺度感受野和细节保留。

2.2 BiSeNet的局限性

BiSeNet采用双路径结构（Spatial Path + Context Path）分别捕获细节与语义信息，但其额外路径导致以下问题：

计算开销大：Spatial Path需独立处理高分辨率特征，占用大量计算资源。
特征融合效率低：双路径特征需复杂融合策略，难以实现端到端优化。

三、算法原理

3.1 整体架构

STDC-seg采用单流编码器-解码器架构，核心组件包括：

STDC模块：编码器中用于提取多尺度特征。
Detail Guidance机制：解码器中指导低层特征学习细节信息。
U-Net式特征融合：结合深浅层特征提升分割精度。

3.2 STDC模块设计

3.2.1 设计目标

减少冗余计算：通过逐步降低特征图维度，减少参数量。
扩展感受野：密集拼接不同尺度的卷积结果，捕获多尺度上下文。

3.2.2 模块结构

STDC模块由多个卷积块串联组成，每个块包含不同核大小的卷积层（如1×1、3×3、5×5），输出特征按通道维度拼接。关键设计包括：

逐步降维：每个块的输出通道数逐层减少，例如从256降至64。
多尺度融合：不同核大小的卷积结果拼接，形成多尺度特征表示。

设输入特征为 $\in \mathbb{R}^{H \times W \times C}$ ，第 $i$ 个卷积块的输出为 $F_i(X)$ ，则STDC模块的输出为：
$\text{Concat}(F_1(X), F_2(X), \dots, F_n(X))$
其中 $F_i$ 的卷积核大小逐层递增，通道数逐层递减。

3.2.3 网络配置

STDC网络包含多个阶段（Stage 3-5），每个阶段由多个STDC模块堆叠而成。具体配置如下表：
在这里插入图片描述

3.3 Detail Guidance机制

3.3.1 动机

低层特征（如Stage 3）包含丰富细节，但直接用于分割易受噪声干扰。BiSeNet通过额外路径增强细节，而STDC-seg提出Detail Aggregation模块，在单流框架中引导低层特征学习细节。

3.3.2 实现步骤

细节真值生成：通过拉普拉斯算子从分割真值中提取边缘与角点，生成二值细节掩码。
细节头（Detail Head）：在Stage 3后插入轻量级分支（3×3卷积 + 1×1卷积），预测细节图。
损失函数：结合Dice Loss与二值交叉熵（BCE Loss），缓解类别不平衡问题：
$L_{detail} = L_{dice}(p_d, g_d) + L_{bce}(p_d, g_d)$