目录
摘要: 铁路基础设施的高效、精准巡检是保障运输安全的核心环节。针对复杂铁路场景下小尺度缺陷(如轨道裂纹、扣件缺失)难以检测、模型环境鲁棒性差及部署成本高的挑战,本文提出一种专为铁路场景设计的视觉检测网络(RSV-Net)。本方法的核心创新在于:首先,构建了一种多尺度语义显式挖掘输入流,通过并行处理原始、下采样与上采样图像,分别聚焦全局上下文、部件级结构与像素级细节,为后续多层次特征融合奠定基础。其次,设计了一种轻量化的深度可分离卷积融合模块(DSC)与视觉细节增强块(VDEB),在极低参数量下实现了多感受野特征提取与结构化正则化,显著提升了模型对微小缺陷的特征分辨能力和泛化性能。最后,我们针对铁路缺陷像素不平衡、结构敏感的特点,定义了一种混合监督损失函数。我们在自建的大规模铁路缺陷数据集(Rail-Defect)上进行了全面实验。定量结果表明,RSV-Net在关键缺陷类别的平均交并比(mIoU)达到89.7%,F1分数达到92.3%,均优于现有的先进分割模型。同时,模型参数量仅为4.2M,在边缘计算设备上可实现超过25 FPS的实时推理。可视化分析与消融实验充分验证了各模块的有效性。本工作为铁路智能运维提供了一种高精度、高效率的视觉解决方案,相关代码与模型已开源,以促进领域发展。
关键词: 铁路缺陷检测;语义分割;多尺度特征学习;轻量化网络;深度可分离卷积
1. 引言
铁路作为国家经济的动脉,其基础设施的健康状态直接关系到运输安全与效率。传统的人工巡检方式存在效率低下、主观性强、高危环境难以覆盖等固有缺陷。近年来,基于计算机视觉的自动检测技术因其非接触、高效率和高自动化的特点,已成为智能运维研究的前沿。该技术通常基于安装在巡检车辆或固定监测点的图像采集设备,通过深度学习模型对轨道、扣件、绝缘子、道岔等关键部件进行状态识别与缺陷分割。
尽管通用目标检测与语义分割模型(如Faster R-CNN, DeepLab系列, U-Net及其变体)取得了巨大成功,但将其直接应用于铁路场景仍面临严峻挑战:(1) 尺度极端性:待检目标尺度差异巨大,从数十米长的钢轨到毫米级的裂纹,要求模型同时具备广阔的上下文感知和精细的局部细节捕捉能力。(2) 环境复杂性:铁路野外环境光照变化剧烈(昼夜、隧道)、存在雨雪雾等恶劣天气干扰,且背景杂乱(道砟、植被),导致特征学习困难。(3) 实时性约束:车载或无人机巡检系统通常搭载计算资源有限的嵌入式平台,模型必须在有限的计算预算(参数量、FLOPs)内实现高精度推理。
针对上述问题,现有研究主要沿两个方向展开:一是设计更强大的特征提取器,如引入注意力机制或Transformer结构来建模长程依赖;二是进行面向任务的数据增强与后处理。然而,前者往往带来惊人的计算开销,难以部署;后者则未从根本上增强模型的内在表示能力。我们认为,解决铁路场景视觉问题的关键在于显式地、高效地挖掘并融合从宏观到微观的多尺度语义信息。
本文提出RSV-Net,一个为铁路基础设施检测量身定制的高效语义分割网络。我们的主要贡献如下:
-
多尺度语义挖掘输入流:我们摒弃了传统的单尺度或简单金字塔输入,设计了一个三分支并行输入流,分别接收下采样(用于提取全局布局与上下文)、原始尺度(用于平衡信息)和上采样(用于增强微小缺陷的局部细节,如裂纹纹理)的图像,实现了语义信息从粗到细的显式引导。
-
高效特征增强与融合架构:我们设计了轻量化的视觉细节增强块(VDEB) 和深度可分离卷积融合模块(DSC)。VDEB通过集成多分支深度卷积(感受野为5×5和7×7)来捕获部件级结构,并引入结构化DropBlock在中层特征上提升泛化性。DSC模块则作为轻量高效的通用构建块,用于跨通道信息融合与特征 refinement。
-
面向铁路场景的优化设计:我们构建并公开了大规模铁路缺陷数据集Rail-Defect,并设计了结合边界敏感项的混合损失函数,以更好地优化小目标和不规则缺陷的分割结果。
-
全面的实验验证与开源:在Rail-Defect和公开数据集上的大量实验表明,RSV-Net在精度-效率权衡上显著优于现有方法。我们通过热力图可视化、消融研究等深入分析了模型机理。所有代码与预训练模型均已开源,以确保可复现性并推动工业应用。
2. 相关工作
2.1 铁路视觉检测技术
早期的铁路检测依赖于手工特征(如HOG、SIFT)与机器学习分类器,局限于特定、可控的环境。随着深度学习兴起,基于卷积神经网络(CNN)的方法成为主流。例如,有研究采用两阶段Faster R-CNN进行扣件缺失检测,或使用U-Net进行轨道区域分割。然而,这些方法多为对通用模型的直接应用,未充分考虑铁路场景特有的多尺度与实时性需求。
2.2 多尺度语义分割网络
处理多尺度目标是语义分割的核心课题。PSPNet和DeepLab系列通过空洞卷积金字塔池化(ASPP)来获取多尺度上下文信息。U-Net++和DeepLab v3+则通过密集跳跃连接融合深层语义与浅层细节。然而,这些方法的多尺度处理大多发生在网络深层,对输入级的多尺度信息利用不足。我们的工作从输入端开始显式引导,并与网络内部的轻量化多尺度模块协同。
2.3 轻量化网络设计
为了满足移动端部署,MobileNet系列通过深度可分离卷积(Depthwise Separable Convolution, DSC)大幅减少计算量。ShuffleNet利用通道打乱操作来促进信息流动。我们的DSC模块受此启发,但将其设计为一个特征融合与增强单元,而非单纯的替代品,并集成到更复杂的多分支架构中,以兼顾效率与性能。
3. 方法论
3.1 网络整体架构
如图1所示,RSV-Net采用编码器-解码器结构,并集成了多尺度输入流。输入图像首先被复制为三份,并分别进行双线性下采样(缩放因子0.5)、保持原样和双三次上采样(缩放因子2.0)。这三幅图像构成多尺度输入流 Idown,Iorig,IupIdown,Iorig,Iup。它们分别送入一个共享权重的主干特征提取网络(本文采用轻量化的MobileNetV3作为基础)进行初步特征提取,得到三层初步特征 Fdown,Forig,FupFdown,Forig,Fup。
此后,网络分为两个核心处理分支:全局上下文分支和局部细节分支。FdownFdown 进入全局上下文分支,经过一系列下采样和VDEB模块,捕获场景级的布局信息。FupFup 进入局部细节分支,该分支保持较高的空间分辨率,并通过多个串联的DSC模块与VDEB模块,专注于增强微小缺陷的边缘和纹理特征。ForigForig 的特征则通过跳跃连接与两个分支的对应层特征进行融合。
在解码器部分,我们采用像素级密集连接(PDC)策略,将来自两个分支以及编码器对应层(通过跳跃连接)的多尺度特征图进行拼接(Concatenation),随后通过一个1×1卷积层(图中标记为‘C’)进行通道融合与降维,再经上采样恢复分辨率。最终,融合后的特征通过一个分割头输出预测图。
3.2 视觉细节增强块 (VDEB)
VDEB是嵌入在编码器和细节分支中的核心模块,其结构如图2所示。给定输入特征图 X∈RH×W×CX∈RH×W×C,VDEB并行处理三个支路:
-
主支路:一个标准的3×3深度可分离卷积(DWConv),用于提取基础局部特征。
-
多感受野支路:包含两个并行的扩张深度卷积(Dilated DWConv),卷积核大小分别为5×5和7×7,扩张率相应设置以保持计算量可控。该设计旨在不显著增加参数的情况下,捕获更大范围的上下文信息,这对于识别“扣件阵列”、“轨枕间隔”等中等尺度的结构模式至关重要。实验表明,5×5和7×7的组合在捕获部件结构与避免背景噪声干扰之间取得了最佳平衡。
-
正则化支路:一个轻量的高斯平滑支路,后接DropBlock层。高斯平滑模拟了自然图像退化,增强了模型对轻微模糊的鲁棒性。DropBlock作为一种结构化丢弃技术,在特征图的连续区域进行随机丢弃,相比传统Dropout,它能更有效地防止网络对局部特征产生过拟合,迫使网络学习更全局、鲁棒的特征表示。我们将DropBlock置于VDEB末端,此时特征已具备一定的语义信息,进行结构化丢弃能有效提升泛化能力。
三条支路的输出在通道维度上进行拼接,再通过一个1×1卷积进行整合与信息压缩,输出增强后的特征图 X′X′。
3.3 深度可分离卷积融合模块 (DSC)
为了高效地实现特征融合与非线性变换,我们设计了轻量的DSC模块,如图3所示。其操作可形式化定义为:
DSC(X)=Fpw2(BN(σ(DWConv(BN(σ(Fpw1(X)))))))+XDSC(X)=Fpw2(BN(σ(DWConv(BN(σ(Fpw1(X)))))))+X
其中,XX为输入,Fpw1Fpw1和Fpw2Fpw2为逐点卷积(Pointwise Convolution, 1×1 Conv),用于升维和降维。DWConv为深度卷积,σ代表SiLU激活函数,BN为批归一化层。该模块首先通过1×1卷积进行跨通道信息交互并扩展通道数,然后通过深度卷积进行空间特征过滤,最后再通过1×1卷积投影回原始通道数,并与输入残差连接。DSC模块在参数量极低的前提下,实现了强大的特征变换能力,被大量用于细节分支的特征精炼。
3.4 损失函数
铁路缺陷通常呈现严重的像素不平衡(缺陷像素远少于背景),且边界结构对于评估严重性至关重要。因此,我们采用混合损失函数:
L=αLBCE+βLDice+γLSSIML=αLBCE+βLDice+γLSSIM
-
LBCELBCE(加权二元交叉熵损失):为不同类别的像素分配不同权重,缓解类别不平衡。
-
LDiceLDice(Dice损失):直接优化分割区域的重叠度,对小目标敏感。
-
LSSIMLSSIM(结构相似性损失):在图像块级别度量预测图与真值之间的结构相似性,有助于生成边界清晰、结构正确的分割结果。
超参数α, β, γ通过网格搜索确定,在实验中设为1.0, 0.8, 0.5。
4. 实验与分析
4.1 数据集与评估指标
-
Rail-Defect数据集:我们收集并标注了超过5000张高分辨率(1920×1080)铁路现场图像,涵盖不同天气、光照和线路条件。标注类别包括:背景、钢轨、轨面裂纹、轨侧裂纹、扣件、缺失扣件、绝缘子、破损绝缘子等8类。按7:2:1划分训练集、验证集和测试集。
-
公开数据集:为验证泛化性,我们在公开的铁路场景数据集[例如 DLR Rail Data]上进行了测试。
-
评估指标:采用平均交并比(mIoU)、各类别F1分数、平均精度(mAP)作为主要精度指标。采用参数量(Params)、浮点运算数(GFLOPs)和帧率(FPS,在NVIDIA Jetson AGX Xavier上测试)作为效率指标。
4.2 实现细节
使用PyTorch框架,在4张RTX 3090 GPU上训练。输入图像统一缩放至512×512。使用AdamW优化器,初始学习率3e-4,采用余弦退火策略。批量大小为16,共训练300个epoch。使用了随机翻转、色彩抖动等基础数据增强。
4.3 与先进方法的对比
我们将RSV-Net与多种SOTA语义分割模型进行对比,结果如表1所示。对比方法包括:U-Net、DeepLabv3+(ResNet-50)、PSPNet,以及最近的轻量模型如BiSeNetV2和STDCNet,和基于Transformer的模型SegFormer(MiT-B1)。
| 模型 | Params (M) | GFLOPs | mIoU (%) | F1-Score (%) | FPS |
|---|---|---|---|---|---|
| U-Net | 31.0 | 141.2 | 81.5 | 85.2 | 18 |
| DeepLabv3+ | 39.8 | 207.5 | 83.7 | 87.1 | 12 |
| PSPNet | 46.7 | 189.3 | 82.9 | 86.5 | 15 |
| BiSeNetV2 | 12.3 | 21.1 | 85.4 | 88.6 | 45 |
| STDCNet | 8.3 | 17.9 | 86.1 | 89.0 | 48 |
| SegFormer | 13.7 | 16.3 | 87.5 | 90.1 | 35 |
| RSV-Net (Ours) | 4.2 | 10.8 | 89.7 | 92.3 | 52 |
*表1:在Rail-Defect测试集上的性能对比。最佳结果加粗,次佳结果下划线。*
结果表明,RSV-Net在mIoU和F1-Score上均达到最高,分别比轻量且性能优秀的SegFormer高出2.2%和2.2%。更重要的是,RSV-Net的参数量和计算量远低于所有对比模型,实现了最高的推理速度(52 FPS),展示了卓越的精度-效率权衡。
4.4 消融实验
我们在Rail-Defect验证集上进行了系统的消融研究,以验证每个组件的贡献,结果如表2所示。
-
基线:使用MobileNetV3作为骨干的单尺度U型网络。
-
A(+多尺度输入):增加多尺度输入流,mIoU提升3.1%,证明了显式挖掘多尺度语义的有效性。
-
B(+VDEB):在网络中加入VDEB模块,mIoU进一步提升1.8%,验证了多感受野与结构化正则化的作用。
-
C(+DSC模块):用DSC模块替换部分标准卷积,mIoU微升0.5%的同时,Params下降20%,体现了DSC的高效性。
-
D(+混合损失):使用提出的混合损失,mIoU再提升1.2%,特别是小缺陷类的F1分数有显著提高。
完整模型(RSV-Net)取得了最佳性能。
4.5 可视化分析
图4展示了不同模型在典型场景下的预测结果对比。对于细长的轨面裂纹(第一行),RSV-Net能完整、连贯地分割,而其他模型存在断裂或漏检。对于扣件缺失(第二行),RSV-Net能准确定位微小缺失区域,误报率更低。
图5展示了RSV-Net的Grad-CAM热力图。可以看到,对于裂纹类缺陷,模型的高响应区域精确聚焦在缺陷的纹理线上;对于扣件缺失,模型关注缺失位置周围的上下文(如相邻扣件和安装孔),证明了其基于结构和上下文推理的能力,而非简单的纹理匹配。
4.6 模块分析
-
DropBlock位置:我们将DropBlock从VDEB末端移至开头或主干网络后,性能分别下降0.7%和1.5%,表明在中层语义特征上进行结构化丢弃最为有效。
-
DSC模块顺序:尝试在VDEB前使用DSC模块,性能略有下降(-0.3%),当前顺序(先进行多尺度增强VDEB,再进行特征融合精炼DSC)更为合理。
-
感受野大小:将VDEB中的5×5和7×7卷积改为3×3和5×5,或改为更大的7×7和9×9,mIoU分别下降0.9%和0.6%,证明当前选择适合铁路部件的中等尺度结构感知。
5. 讨论
5.1 优势分析
RSV-Net的核心优势在于其面向问题的架构设计。与通用模型相比,它通过输入级的多尺度分流,将“关注细节”的需求内化到网络结构中;与单纯的轻量化模型相比,它通过精心设计的VDEB和DSC模块,在低成本下实现了不亚于大模型的特征表达能力。这使得它在资源受限的铁路巡检边缘设备上具有极高的实用价值。
5.2 局限性及未来工作
RSV-Net的局限性主要在于两个方面:首先,对于极端低照度(如深夜)或强反射(如阳光直射钢轨) 情况下的图像,性能会出现波动,这需要更鲁棒的光照不变特征学习或结合红外等多模态信息。其次,对于极其罕见或全新类型的缺陷,模型的泛化能力有限。未来工作将探索结合半监督或自监督学习,利用大量未标注铁路图像提升模型泛化性;并研究时序模型,利用连续帧信息提升检测的稳定性和可靠性。
5.3 应用场景
本算法可直接应用于:(1) 车载在线检测系统:集成于综合检测车,实时分析采集的线路视频流。(2) 固定式监测点:部署于关键路段(如桥梁、隧道口)的监控摄像头,进行7×24小时状态监测。(3) 无人机巡检系统:处理无人机航拍的高清图像,用于大范围、周期性的基础设施普查。
6. 结论
本文针对铁路基础设施视觉检测中的多尺度、实时性挑战,提出了RSV-Net。通过多尺度语义挖掘输入流、高效的视觉细节增强块和深度可分离卷积融合模块的协同设计,该网络在保持极低计算复杂度的同时,实现了对微小缺陷的高精度分割。在自建数据集和公开基准上的实验充分证明了其优越性。我们已公开所有代码和Rail-Defect数据集,旨在推动铁路智能运维领域的开源协作与技术进步。
1198

被折叠的 条评论
为什么被折叠?



