PyTorch手把手实现SegFormer语义分割，音频降噪技术：从原理到工具的完整指南（scipy librosa noisereduce soundfile pedalboard）。

PyTorch从零实现SegFormer语义分割

SegFormer是2021年提出的一种高效语义分割架构，结合了Transformer的全局建模能力和轻量级设计。其核心创新点包括分层Transformer编码器和轻量级MLP解码器。

模型架构设计

SegFormer由三部分组成：分层Transformer编码器、轻量级MLP解码器和分割头。编码器采用Mix Transformer（MiT）作为主干网络，生成多尺度特征图。

MiT的改进设计包括：

重叠块嵌入（Overlap Patch Embedding）：使用3×3卷积与步幅2实现重叠块划分
高效自注意力机制：序列缩减因子R=16降低计算量
混合FFN：在FFN中引入3×3深度卷积

class OverlapPatchEmbed(nn.Module):
    def __init__(self, in_c=3, embed_dim=64, patch_size=7, stride=4):
        super().__init__()
        self.proj = nn.Conv2d(in_c, embed_dim, patch_size, stride, padding=patch_size//2)
        self.norm = nn.LayerNorm(embed_dim)
    
    def forward(self, x):
        x = self.proj(x)  # [B, C, H, W] -> [B, E, H/4, W/4]
        x = x.flatten(2).transpose(1,2)  # [B, E, H*W/16]
        return self.norm(x)

编码器实现

分层编码器包含多个阶段，每个阶段包含注意力块和混合FFN块。采用渐进式缩减策略，随着网络加深，特征图分辨率降低而通道数增加。

class EfficientAttention(nn.Module):
    def __init__(self, dim, num_heads=8, sr_ratio=1):
        super().__init__()
        self.num_heads = num_heads
        head_dim = dim // num_heads
        self.scale = head_dim ** -0.5
        
        self.q = nn.Linear(dim, dim)
        self.kv = nn.Linear(dim, dim*2)
        self.proj = nn.Linear(dim, dim)
        
        self.sr_ratio = sr_ratio
        if sr_ratio > 1:
            self.sr = nn.Conv2d(dim, dim, sr_ratio, sr_ratio)
            self.norm = nn.LayerNorm(dim)

解码器设计

SegFormer采用轻量级MLP解码器聚合多级特征。相比FPN或U-Net结构，仅需约1.6M参数即可实现高效特征融合。

解码器工作流程：

对每个编码器特征图进行MLP投影至统一通道数
上采样所有特征至1/4输入分辨率
通道拼接后通过MLP融合特征
最终分割头输出预测结果

class MLPDecoder(nn.Module):
    def __init__(self, in_channels, embed_dim=256):
        super().__init__()
        self.linear_layers = nn.ModuleList([
            nn.Sequential(
                nn.Conv2d(in_c, embed_dim, 1),
                nn.Upsample(scale_factor=2**i, mode='bilinear')
            ) for i, in_c in enumerate(in_channels)
        ])
        self.fusion = nn.Sequential(
            nn.Conv2d(len(in_channels)*embed_dim, embed_dim, 1),
            nn.ReLU()
        )

训练策略

SegFormer训练采用标准交叉熵损失和AdamW优化器。推荐的学习率调度策略包括：

线性预热：前1500次迭代从0线性增加到初始学习率
多项式衰减：后续按(1-iter/max_iter)^0.9衰减
初始学习率：6e-5（batch size=8时）
权重衰减：0.01

数据增强建议：

随机水平翻转（概率0.5）
随机缩放（比例0.5-2.0）
随机裁剪（Cityscapes标准尺寸512×1024）
颜色抖动（亮度、对比度、饱和度各0.5）

性能优化技巧

混合精度训练：使用AMP自动混合精度减少显存占用
梯度裁剪：设置最大梯度范数为0.1防止梯度爆炸
类别权重：可为罕见类别分配更高权重缓解类别不平衡
知识蒸馏：可用更大的SegFormer模型作为教师模型

scaler = torch.cuda.amp.GradScaler()
with torch.cuda.amp.autocast():
    outputs = model(images)
    loss = criterion(outputs, masks)
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()