计算机视觉研究院 | RailFOD23:一个用于铁路输电线路异物检测的数据集

本文来源公众号“计算机视觉研究院”,仅用于学术分享,侵权删,干货满满。

原文链接:https://mp.weixin.qq.com/s/gIcIIlFISTMzjvuKi_74-A

前言

人工智能模型通过分析输电线路上异物的图像数据,在铁路基础设施的监测和维护中发挥着关键作用。然而,可公开获取的铁路异物数据集十分有限,且铁路图像数据中异常情况罕见,再加上数据共享受到限制,这给训练有效的异物检测模型带来了挑战。

PART/1     概述   

在本文中,目标是提出一个新的铁路输电线路异物数据集,并评估主流检测模型在该场景下的整体性能。我们采用一种独特的方法,利用ChatGPT(聊天生成预训练转换器)等大规模模型以及文本到图像生成模型,合成了一系列异物数据。该数据集包含14615张图像,其中有40541个带标注的物体,涵盖了铁路输电线路上四种常见的异物。通过对该数据集的实证研究,我们验证了各种基准模型在异物检测方面的性能,为铁路设施的监测和维护提供了有价值的见解。

PART/2     背景   

铁路输电线路在现代铁路运输系统中起着至关重要的作用,为列车提供了稳定且可靠的电力传输通道。然而,当输电线路与金属箔或金属风筝线等导电材料接触时,可能会引发短路,导致列车断电。较大的绝缘轻质材料也可能缠住受电弓,进而影响列车的正常运行。据统计,2021年4月28日至5月7日的10天内,北京铁路因漂浮异物导致接触网故障共10起,造成列车延误或停运。为确保铁路输电的安全性和可靠性,及时检测并清除这些异物至关重要。 若干研究强调,由塑料袋等轻质物品引发的电力线路事故频繁发生。这些轻质物品在有风时会飘移到靠近输电线路的地方。一旦缠住线路,就会带来重大风险,可能导致线路故障和电力中断。此外,这些研究⁵·⁶还强调了飘动物体对电力线路构成的更广泛威胁,并建议需要相关的风险评估方法。风筝、系留帆布和织物材料等飘动物体在风中会出现由风引起的振动和摆动,增加了与电力线路接触的可能性。正如一些实例所报告的,这种接触会导致线路不稳定和故障。另外,研究表明,鸟巢会对电力线路的绝缘性能产生不利影响。最后,有大量关于气球引起电气事故的报道,主要是因为它们不受控制的漂浮行为使其与电力线路接触。综上所述,铁路输电线路上常见的异物包括:(1)塑料袋:这些轻质物品容易被风吹动,可能缠住输电线路,带来安全风险(见图1a)。(2)飘动物体:风筝、系留帆布和织物材料等物体在风中能够飘动或振动,对电力线路构成潜在威胁(见图1b)。(3)鸟巢:鸟巢可能导致短路、故障,或危及鸟类自身(见图1c)。(4)气球:由于其轻质和漂浮的特性,如果气球缠住输电线路,可能会导致线路故障(见图1d)。

图片

图1

在铁路监控图像分析领域,人工检查铁路线路上的异物存在诸多问题,包括耗时、不及时以及成本高,这些都对保障铁路的安全和正常运行构成了重大挑战。因此,自动异物检测被广泛认为是铁路监控图像分析的有效解决方案。特别是在现代图像处理技术的背景下,目标检测领域已经开展了大量研究,其中基于深度学习的目标检测算法是最受欢迎的。然而,这些方法在算法训练和评估期间对基础数据有巨大需求,而铁路监控数据的独特特征使得数据收集异常困难。首先,铁路上异物的出现相对较少。其次,铁路图像在法律上的敏感性意味着数据收集和共享存在限制和障碍。由于这些限制,公开可用的大规模铁路监控图像数据集尚未出现,这限制了铁路异物检测技术的发展和应用。总而言之,共享和发布铁路输电线路的异物数据集对于构建异物检测模型至关重要。通过使用该数据集进行模型训练,可以更高效地检测异物,这将推动人工智能技术在铁路领域的发展。

在本文中,我们创建了一个名为“RailFOD23”的全面且多样化的数据集,该数据集是专门为铁路输电线路的异物检测而设计的。RailFOD23总共包含14615张高分辨率图像,使其成为铁路领域训练和评估异物检测模型的宝贵资源。本文的主要贡献如下: 

(1)数据集的创建:首先,手动收集铁路输电线路异常状况的图像。其次,整合ChatGPT和AIGC(人工智能生成内容)技术,以成功生成大量异常图像,从而克服异常数据稀缺的问题。最后,使用图像增强方法将异常与正常图像合成,进一步增加异常数据的数量。 

(2)数据集的公开可用性:RailFOD23数据集已公开发布,可供研究人员和开发人员使用。这将有助于促进铁路输电线路异物检测领域的研究和创新。

技术验证:包括验证基于AIGC的图像生成的有效性,以及对各种主流深度学习模型进行基准测试,以确保数据集的质量和可用性。通过这种方式,为研究人员提供了足够的实验数据以供参考和进一步研究。

PART/3     新算法框架解析   

数据采集

本文的数据采集方法包括三部分。第一部分是手动合成,即使用 Photoshop(PS)对收集到的铁路场景进行逼真的合成操作。第二部分是基于 ChatGPT 和 AIGC 的自动生成方法。第三部分是基于 Railsem1 数据集的数据合成。

手动数据收集

使用 Python 从微图图库(https://cn.bing.com/images)抓取了约四百张高质量的铁路输电线路场景图像,然后使用 Adobe Photoshop(PS)软件合成了 412 张输电线路异常图像,如图2所示。

图片

图2

基于人工智能生成内容的图像生成

在实际场景中,为特定铁路场景获取大量异物样本是一项困难且耗时的任务。因此,为了解决数据稀缺问题,提出了一种基于ChatGPT和AIGC的异物图像生成方法。

图片

图3

如图3所示,为了降低训练成本,本文通过当前热门的三个通用模型,依次进行批量文本生成、图像生成、图像超分辨率任务,具体细节如下。

步骤1:首先需要明确的是,ChatGPT 是一个文本对话模型,无法直接生成图像。需要注意的是,本文使用的是 ChatGPT 3.5,它是 OPENAI 当前主流的通用型 ChatGPT 版本(https://chat.openai.com/),无需重新训练。通过输入铁路场景的模糊化文本描述,要求 ChatGPT 输出多样的铁路环境和场景。模糊化描述的使用引入了一定程度的不确定性,允许涵盖各种不同的场景。通过使用“不同的”和“可能的”等术语,模型被提示生成涵盖一系列环境条件和电力线路上潜在物体的内容。例如,考虑以下提示:“生成 50 组不同天气条件下的铁路电力线路异物。可能的异物包括气球、鸟巢、风筝、塑料袋等物品”。使用递归方法生成多个描述,以获取更多样化的文本数据,确保 AIGC 能够生成多样化的铁路异物图像。在生成提示时,必须注意以下几点。首先,要使用同一个会话窗口,以便 ChatGPT 能够获取上下文信息。其次,在构思问题的过程中,除了描述生成电力线路异物图像所需的语句外,还要包含以下关键提示:“这些语句用于后续的基于文本的图像生成任务”、“请确保每个生成的语句都尽可能与之前的不同”、“物体的目标尺寸可以变化”。 

步骤2:将步骤 1 中得到的各种铁路场景文本描述作为图像生成模型 Stable Diffusion 的输入,该模型的任务是将这些文本描述转换为铁路环境和场景的合成图像。上述模型是使用 mmagic(https://github.com/open - mmlab/mmagic)实现的。在这一步中,需要手动筛选与铁路场景匹配的异物图像。

步骤3:对生成的图像进行后处理和优化。使用 Stable Diffusion 生成铁路环境和场景的合成图像后,后处理和质量提升是必要的。在本文中,使用 mmagic 的 ESRGAN模型来增强图像质量,分辨率可以从原来的 512×512 扩展到 2048×2048。

通过所提出的生成方法,获得了大量异物侵入数据,总计4000张,部分样本如图4所示。

图片

图4

基于图像合成的方法

将异物手动添加到背景图像上是一种有效的方法,这种方法能够在特定场景下获取异物数据,但对于大规模图像存在以下局限性:(1)手动进行图像编辑是一项复杂的工作,需要耗费大量时间和精力。(2)添加的异物图像和背景图像可能存在显著差异,这需要人工去调整图像属性,进一步增加了人工工作量。(3)合成后的异物图像仍需进行标注。因此,提出了一种自动图像合成方法,该方法能够自动生成标注文件和协调好的图像,如图5所示。

图片

图5

我们提出的方法的工作流程如下:首先,构建单一异物的图像数据集,这些图像的尺寸与异物的大小高度匹配;随后,基于Labelme构建精细的异物掩码数据集。接下来,从异物数据集中随机选取3张异物图像,并从背景图像中随机选取3个坐标以粘贴这些异物。之后,基于对应的掩码图像替换背景图像的像素,并生成XML格式的标注文件。最后,针对异物与背景图像之间存在的差异,采用CDTNet²⁹实现图像融合。综上,我们的方法能够高效自动地生成异物图像,从而进一步获取更多可用数据。

PART/4     新算法框架解析   

数据标注

图像数据集主要来源于AIGC、AUG和PS。对数据集进行标注是为了实现目标检测,图6展示了标注过程。

图片

图6

为确保标注的一致性和准确性,由两位电气工程领域的博士专家制定了详细的标注指南。主要标注人员由小组内的八名硕士研究生组成。他们在标注过程中可能会遇到各种情况,并且能够向博士专家反馈。每位标注人员在熟悉标注指南后,开始对数据进行初步标注。如果标注人员遇到没有任何可识别物体的图像,会按照要求删除这些图像。标注完成后,数据会由两位博士专家进行全面检查。如果发现标注不合格的情况,博士专家会对有问题的图像重新进行标注。这一反复的过程确保了标注数据的高质量和一致性。最后,标注过程结束后,得到最终的图像数据和相应的标注文件。

数据集准备

在数据集的准备阶段,采用了COCO数据格式,该格式在计算机视觉领域已得到广泛认可和使用。首先,设置随机种子为42来对数据进行随机打乱。接下来,我们按照经验性的8:2比例,将整个数据集划分为训练集和测试集。选择这个比例是为了在模型的训练和性能评估之间取得平衡。需要注意的是,我们的数据集是专门用于目标检测任务的,这意味着每个样本都包含图像中物体的位置和类别信息。

评估指标

本文使用了若干评估指标来全面评估数据集和目标检测器的性能。平均精度均值(mAP):mAP是衡量目标检测模型准确性的关键指标。它考虑了每个类别的精确率-召回率曲线,并计算它们的平均值,从而对模型在各类别上的综合性能进行评估。 参数数量:参数数量表示模型中需要训练的可学习参数的数量。 混淆矩阵:混淆矩阵提供了模型在不同类别上的分类性能的详细信息。它包含了真正例数量、假正例数量、真负例数量和假负例数量,这有助于我们识别模型在不同类别上的错误模式和优势。

数据记录

RailFOD23数据集已以zip格式在Figshare上发布,符合数据要求。整个文件大约占用6GB的磁盘空间,包含一个存储所有图像的“Images”文件夹,以及一个包含采用COCO数据格式标注的json文件的“annotations”文件夹。该数据集适用于训练目标检测器。用户可以基于COCO格式构建数据加载方法来处理这个数据集。通过编写合适的数据加载代码,研究人员可以轻松利用RailFOD23数据集来训练他们的目标检测模型。RailFOD23数据集的发布为研究人员和开发人员评估和改进铁路输电线路异物检测的目标检测技术提供了宝贵资源。借助这个数据集,研究人员可以比较和评估不同的目标检测算法,推动该领域的发展。

图片

图8

我们对类别激活热力图Lc进行了归一化处理,并将其叠加到原始输入图像上,以可视化卷积神经网络(CNN)对目标类别c的关注区域。生成的热力图与原始图像的对比结果如图8所示。

热力图的颜色深浅表示网络对目标类别的关注程度,颜色越“热”(通常为红色、橙色等暖色调)的区域,代表网络的关注程度越高。可以看出,对于AIGC生成的图像,卷积神经网络能够有效捕捉到这些关键热力图,这进一步证明了所生成数据集的有效性。

单阶段目标检测

单阶段目标检测领域包含若干经典算法,其中YOLO(You Only Look Once,你只需看一次)系列和SSD(Single Shot MultiBox Detector,单阶段多框检测器)系列颇受欢迎。从YOLOv5到YOLOv8的YOLO系列聚焦于轻量化和速度,在追求更快推理速度的同时保持高性能。SSD以其多尺度特性著称,通过多尺度锚框适应不同目标尺寸来提升性能。此外,还有几种单阶段目标检测方法可供使用,每种方法都为特定挑战提供了独特的解决方案。这些方法包括RetinaNet,它使用焦点损失解决正负样本不平衡问题;DETR,它基于Transformer架构,通过自注意力机制实现端到端的目标检测和定位,具有显著优势。 在本文中,选择上述模型进行训练和测试,目的是展示输电线路异物检测数据集用于单阶段目标检测的可行性。

双阶段目标检测

双阶段目标检测方法将任务分为两个重要阶段。首先,使用候选区域生成网络来提出可能包含目标的区域。其次,使用分类和回归网络来准确地定位和识别物体。在这一领域,Faster R - CNN是开创性的成果,它引入了区域提议网络(RPN),实现了准确的目标检测。Libra R - CNN引入了自适应正负样本挖掘,以增强检测的稳定性和准确性。此外,Sparse R - CNN采用稀疏注意力机制,有效降低了计算复杂度。

结果对比

为了展示在RailFOD23数据集上应用先进目标检测技术的性能,以验证深度学习在输电线路异物检测中的可行性,我们采用模型微调技术对主流模型进行训练。实验的训练设备是单卡 Tesla P100,训练所使用的框架是 mmdetection。训练的批量大小设为 8,轮数为 40,学习率为 0.001。此外,在微调阶段选择了预训练权重,这些权重是通过在 COCO2017数据集上训练得到的。 

图片

图片

图10

10展示了在本文提及的数据集上训练后,YOLO v8 - l的部署情况。结果展示了在六个实际输电线路场景实例中对异物的检测。可以观察到,该模型的预测在物体类别分类以及边界框内的精确定位方面都表现出令人满意的准确性。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值