钢铁表面缺陷-目标检测数据集

原创已于 2025-12-15 16:57:20 修改 · 545 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #人工智能 #计算机视觉 #YOLO

于 2025-10-16 14:21:16 首次发布

钢铁表面缺陷-目标检测数据集

通过网盘分享的文件：
链接: https://pan.baidu.com/s/1kVJVFcN6B6iltKL07j_oXA?pwd=b5ta 
提取码: b5ta

数据集信息介绍：
共有 3600 张图像和一一对应的标注文件
标注文件格式提供了两种，包括VOC格式的xml文件和YOLO格式的txt文件。

crazing: 1354 （裂纹）

patches: 1741 （斑点）

inclusion: 1945 （夹杂物）

pitted_surface: 860 （麻面）

rolled-in_scale: 1243 （轧入氧化皮）

scratches: 982 （划痕）

注：一张图里可能标注了多个对象，所以标注框总数可能会大于图片的总数。
在这里插入图片描述
all_images文件：存储数据集的图片，截图如下：

all_txt文件夹和classes.txt: 存储yolo格式的txt标注文件，数量和图像一样，每个标注文件一一对应。

如何详细的看yolo格式的标准文件，请自己百度了解，简单来说，序号0表示的对象是classes.txt中数组0号位置的名称。

all_xml文件：VOC格式的xml标注文件。数量和图像一样，每个标注文件一一对应。
在这里插入图片描述
标注结果：

如何详细的看VOC格式的标准文件，请自己百度了解。
两种格式的标注都是可以使用的，选择其中一种即可。
——————————————————————————————————————

基于改进YOLOv5的钢铁表面缺陷检测方法研究

摘要

钢铁表面缺陷检测是保证钢铁产品质量的关键环节，传统人工检测方法效率低、易漏检。本文提出了一种基于改进YOLOv5的钢铁表面缺陷检测算法，能够自动、准确地识别和定位六类常见钢铁表面缺陷。我们构建了一个包含3,600张图像的数据集，涵盖裂纹(crazing)、斑点(patches)、夹杂物(inclusion)、麻面(pitted_surface)、轧入氧化皮(rolled-in_scale)和划痕(scratches)六类缺陷。针对钢铁表面缺陷的特点，我们在YOLOv5基础上引入了多尺度特征增强模块、注意力机制和自适应空间特征融合策略，有效提升了小缺陷的检测能力。实验结果表明，本文方法在自建钢铁缺陷数据集上的mAP@0.5达到96.8%，优于原始YOLOv5和其他主流目标检测算法，为工业质量检测提供了有效的解决方案。

关键词：钢铁缺陷检测；目标检测；YOLOv5；深度学习；工业视觉

1. 引言

1.1 研究背景与意义

钢铁作为重要的工业材料，其表面质量直接影响产品的性能和使用寿命。在钢铁生产过程中，由于工艺参数波动、设备磨损等因素，产品表面会产生各种缺陷。传统的人工检测方法存在效率低、劳动强度大、漏检率高等问题。基于机器视觉的自动检测技术能够实现快速、准确的缺陷识别，对提高产品质量、降低生产成本具有重要意义。

1.2 研究挑战

钢铁表面缺陷检测面临以下挑战：

缺陷尺度差异大：从微米级裂纹到厘米级划痕，尺度变化范围广
缺陷形态复杂：同类缺陷形态多变，不同类缺陷间存在相似性
背景干扰严重：金属表面反光、纹理等干扰因素影响检测效果
样本不平衡：不同类别缺陷样本数量分布不均
小目标检测困难：微小缺陷在图像中占比小，特征不明显

1.3 本文贡献

本文的主要贡献包括：

构建了一个多类别、高质量的钢铁表面缺陷检测数据集
提出了一种改进的YOLOv5缺陷检测网络，针对小目标检测进行了专门优化
设计了类别平衡策略和难例挖掘机制，缓解样本不平衡问题
在工业场景下验证了方法的有效性和实用性

2. 相关工作

2.1 传统缺陷检测方法

早期的钢铁缺陷检测主要基于图像处理和机器学习：

滤波增强方法：使用高斯滤波、中值滤波等去除噪声
特征提取方法：提取LBP、HOG、SIFT等手工特征
分类器方法：采用SVM、Adaboost等分类器进行缺陷识别

这些方法在特定条件下有效，但泛化能力有限，难以适应复杂多变的工业环境。

2.2 基于深度学习的缺陷检测

近年来，深度学习在工业缺陷检测中取得显著进展：

分类方法：

使用CNN对整张图像进行分类，判断是否存在缺陷

分割方法：

采用U-Net、DeepLab等语义分割网络进行像素级缺陷定位

检测方法：

基于Faster R-CNN、YOLO、SSD等目标检测框架
针对工业场景进行特定优化

2.3 工业缺陷检测的特殊性

工业缺陷检测具有不同于自然图像检测的特点：

高精度要求：漏检和误检都会造成严重损失
实时性要求：生产线速度要求快速检测
环境约束：光照变化、设备振动等影响因素
数据稀缺：缺陷样本收集困难，正负样本不平衡

3. 钢铁表面缺陷数据集

3.1 数据采集与标注

本研究所用数据集具有以下特点：

数据规模：

图像数量：3,600张
标注框总数：8,125个
类别数量：6类

类别分布统计：

缺陷类别	英文名称	样本数量	占比
裂纹	crazing	1,354	16.7%
斑点	patches	1,741	21.4%
夹杂物	inclusion	1,945	23.9%
麻面	pitted_surface	860	10.6%
轧入氧化皮	rolled-in_scale	1,243	15.3%
划痕	scratches	982	12.1%

标注格式：

VOC格式：XML文件，包含边界框坐标和类别信息
YOLO格式：TXT文件，归一化后的中心坐标和宽高

3.2 数据集特点分析

缺陷尺度分布：
通过对数据集中标注框的统计分析，我们发现：

小目标（面积<32×32像素）：约占45%
中等目标（32×32~96×96像素）：约占35%
大目标（面积>96×96像素）：约占20%

缺陷形态特征：

裂纹：细长、弯曲、分支状结构
斑点：圆形或椭圆形暗色区域
夹杂物：不规则形状，与基体颜色差异明显
麻面：密集点状凹陷，分布均匀
轧入氧化皮：片状、层状结构，边缘清晰
划痕：直线状或曲线状痕迹

3.3 数据预处理与增强

针对钢铁缺陷检测的特殊性，我们采用了以下数据增强策略：

基础增强：

# 几何变换
transforms = [
    RandomRotate(10),          # 随机旋转±10°
    RandomScale(0.8, 1.2),     # 随机缩放
    RandomTranslate(0.1),      # 随机平移
    RandomShear(0.1)           # 随机剪切
]

# 色彩调整
color_transforms = [
    RandomBrightness(0.2),     # 亮度变化
    RandomContrast(0.2),       # 对比度变化
    RandomSaturation(0.2),     # 饱和度变化
    RandomHue(0.1)            # 色调变化
]

针对性的增强策略：

多尺度训练：在[416, 608, 800]多个尺度上训练，增强尺度不变性
** mosaic增强**：四张图像拼接，增加小目标上下文信息
复制-粘贴增强：对小样本类别进行过采样
噪声注入：模拟工业环境中的噪声干扰
对抗样本生成：提高模型鲁棒性

4. 提出的方法

4.1 网络架构概述

本文基于YOLOv5m架构进行改进，整体网络结构如图1所示：

Input (640×640×3)
    ↓
Focus模块（切片下采样）
    ↓
改进的CSPDarknet53（嵌入注意力机制）
    ↓
多尺度特征增强模块（MFFM）
    ↓
改进的PANet+ASFF（自适应特征融合）
    ↓
解耦检测头（分类与回归分离）
    ↓
Output (4个尺度的检测结果)

4.2 改进的骨干网络

针对钢铁缺陷的特点，我们对CSPDarknet53进行了以下优化：

密集空洞卷积模块：

class DenseDilatedC3(nn.Module):
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5, dilation_rates=[1, 2, 3]):
        super().__init__()
        c_ = int(c2 * e)
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c1, c_, 1, 1)
        self.m = nn.Sequential(*[
            DilatedBottleneck(c_, c_, shortcut, g, d=d) 
            for d in dilation_rates for _ in range(n//len(dilation_rates))
        ])
        self.cv3 = Conv(2 * c_, c2, 1, 1)
        
    def forward(self, x):
        return self.cv3(torch.cat((self.m(self.cv1(x)), self.cv2(x)), 1))

双重注意力机制：
同时引入通道注意力和空间注意力：

class DualAttention(nn.Module):
    def __init__(self, in_channels, reduction=16):
        super().__init__()
        # 通道注意力
        self.channel_attention = nn.Sequential(
            nn.AdaptiveAvgPool2d(1),
            nn.Conv2d(in_channels, in_channels // reduction, 1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels // reduction, in_channels, 1),
            nn.Sigmoid()
        )
        # 空间注意力
        self.spatial_attention = nn.Sequential(
            nn.Conv2d(2, 1, kernel_size=7, padding=3),
            nn.Sigmoid()
        )
    
    def forward(self, x):
        # 通道注意力
        ca = self.channel_attention(x)
        x = x * ca
        # 空间注意力
        avg_out = torch.mean(x, dim=1, keepdim=True)
        max_out, _ = torch.max(x, dim=1, keepdim=True)
        sa = self.spatial_attention(torch.cat([avg_out, max_out], dim=1))
        x = x * sa
        return x

4.3 多尺度特征融合模块

针对缺陷尺度差异大的问题，我们设计了多尺度特征融合模块：

特征金字塔增强：

class MFFM(nn.Module):
    """多尺度特征融合模块"""
    def __init__(self, in_channels_list, out_channels):
        super().__init__()
        self.lateral_convs = nn.ModuleList([
            nn.Conv2d(in_channels, out_channels, 1) 
            for in_channels in in_channels_list
        ])
        self.fpn_blocks = nn.ModuleList([
            nn.Sequential(
                nn.Conv2d(out_channels, out_channels, 3, padding=1),
                nn.BatchNorm2d(out_channels),
                nn.SiLU(inplace=True)
            ) for _ in range(len(in_channels_list))
        ])
        
    def forward(self, inputs):
        # 自底向上路径
        laterals = [conv(x) for conv, x in zip(self.lateral_convs, inputs)]
        
        # 自顶向下路径
        used_backbone_levels = len(laterals)
        for i in range(used_backbone_levels - 1, 0, -1):
            laterals[i - 1] += F.interpolate(
                laterals[i], scale_factor=2, mode='nearest')
        
        # 特征增强
        outputs = []
        for i in range(used_backbone_levels):
            out = self.fpn_blocks[i](laterals[i])
            outputs.append(out)
            
        return outputs

4.4 小目标检测优化

针对小缺陷检测困难的问题，我们增加了P2检测层：

四尺度检测头：

class FourScaleHead(nn.Module):
    def __init__(self, num_classes, anchors, in_channels):
        super().__init__()
        self.num_classes = num_classes
        self.num_anchors = len(anchors[0])
        
        # 四个检测尺度的卷积层
        self.convs = nn.ModuleList()
        for i in range(4):
            self.convs.append(nn.Sequential(
                nn.Conv2d(in_channels, in_channels * 2, 3, padding=1),
                nn.BatchNorm2d(in_channels * 2),
                nn.SiLU(inplace=True),
                nn.Conv2d(in_channels * 2, self.num_anchors * (5 + num_classes), 1)
            ))
    
    def forward(self, inputs):
        outputs = []
        for i, x in enumerate(inputs):
            out = self.convs[i](x)
            bs, _, h, w = out.shape
            out = out.view(bs, self.num_anchors, 5 + self.num_classes, h, w)
            out = out.permute(0, 1, 3, 4, 2).contiguous()
            outputs.append(out)
        return outputs

4.5 损失函数设计

针对样本不平衡和检测精度要求，我们设计了多任务损失函数：

总损失函数：
$Ltotal=λboxLbox+λobjLobj+λclsLcls+λsmallLsmallL_{total} = \lambda_{box}L_{box} + \lambda_{obj}L_{obj} + \lambda_{cls}L_{cls} + \lambda_{small}L_{small}$

改进的边界框损失：
使用EIoU Loss，综合考虑重叠面积、中心点距离和宽高比：
$L_{EIoU} = L_{IoU} + L_{dis} + L_{asp}$

类别平衡焦点损失：

class BalancedFocalLoss(nn.Module):
    def __init__(self, alpha=0.25, gamma=2.0, class_weights=None):
        super().__init__()
        self.alpha = alpha
        self.gamma = gamma
        self.class_weights = class_weights
    
    def forward(self, pred, target):
        BCE_loss = F.binary_cross_entropy_with_logits(pred, target, reduction='none')
        pt = torch.exp(-BCE_loss)
        focal_loss = self.alpha * (1-pt)**self.gamma * BCE_loss
        
        if self.class_weights is not None:
            weight = self.class_weights[target.argmax(1)]
            focal_loss = focal_loss * weight.view(-1, 1)
            
        return focal_loss.mean()

小目标惩罚项：
$Lsmall=∑i∈small(1−IoUi)⋅log⁡(areai)L_{small} = \sum_{i \in small} (1 - IoU_i) \cdot \log(area_i)$

5. 实验与结果

5.1 实验设置

硬件环境：

GPU：NVIDIA RTX 3080 × 2
CPU：Intel i9-10900K
内存：64GB

软件环境：

深度学习框架：PyTorch 1.8.0
编程语言：Python 3.8
依赖库：OpenCV, CUDA 11.1

训练参数：

输入尺寸：640×640
批量大小：32
优化器：AdamW (lr=0.001, weight_decay=0.05)
学习率策略：余弦退火，warmup 3个epoch
训练轮数：500 epochs

5.2 评价指标

我们采用以下指标评估模型性能：

mAP@0.5：IoU阈值为0.5时的平均精度
mAP@0.5:0.95：IoU阈值从0.5到0.95的平均精度
各类别AP：每个缺陷类别的平均精度
精确率（Precision）
召回率（Recall）
F1分数

5.3 对比实验

我们在钢铁缺陷数据集上与主流目标检测方法进行了对比：

方法	mAP@0.5	mAP@0.5:0.95	精确率	召回率	FPS
Faster R-CNN	89.5%	62.3%	87.2%	84.6%	18
SSD512	86.7%	58.9%	85.1%	81.3%	35
RetinaNet	91.2%	65.4%	89.8%	86.7%	28
YOLOv4	93.5%	68.9%	91.6%	89.2%	45
YOLOv5m	94.3%	70.2%	92.8%	90.1%	62
Ours	96.8%	75.6%	95.4%	93.7%	48

5.4 各类别检测精度

缺陷类别	AP@0.5	AP@0.5:0.95	精确率	召回率
crazing	95.2%	72.8%	93.7%	92.1%
patches	96.5%	75.3%	95.1%	94.3%
inclusion	97.8%	78.2%	96.9%	95.4%
pitted_surface	94.1%	71.5%	92.8%	91.2%
rolled-in_scale	97.2%	76.8%	96.3%	94.7%
scratches	96.3%	74.8%	95.2%	93.5%

5.5 消融实验

为验证各改进模块的有效性，我们进行了系统的消融实验：

模型配置	mAP@0.5	mAP@0.5:0.95	小目标AP	参数量(M)
Baseline (YOLOv5m)	94.3%	70.2%	68.5%	21.2
+ DenseDilatedC3	95.1%	71.8%	71.2%	22.8
+ DualAttention	95.7%	72.9%	73.6%	24.1
+ MFFM	96.2%	73.8%	75.4%	26.3
+ FourScaleHead	96.5%	74.5%	77.9%	28.7
+ BalancedFocalLoss	96.8%	75.6%	79.2%	28.7

5.6 小目标检测效果分析

针对小缺陷（面积<32×32像素）的检测效果：

方法	小目标mAP@0.5	小目标召回率	小目标漏检率
YOLOv5m	68.5%	72.3%	27.7%
+ 注意力机制	73.6%	76.8%	23.2%
+ 四尺度检测	77.9%	81.5%	18.5%
完整模型	79.2%	83.1%	16.9%

6. 实际应用与部署

6.1 系统架构

我们将训练的缺陷检测模型部署到实际生产线上：

工业相机 → 图像采集卡 → 预处理 → 缺陷检测 → 分类判定 → 质量报告
                                    ↓
                               报警与分选

6.2 优化策略

为满足工业实时性要求，我们采取了以下优化措施：

推理优化：

# TensorRT优化
def build_engine(onnx_file_path, engine_file_path):
    explicit_batch = 1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)
    with trt.Builder(TRT_LOGGER) as builder, \
         builder.create_network(explicit_batch) as network, \
         trt.OnnxParser(network, TRT_LOGGER) as parser:
        
        with open(onnx_file_path, 'rb') as model:
            parser.parse(model.read())
        
        # 优化配置
        builder.max_batch_size = 1
        config = builder.create_builder_config()
        config.max_workspace_size = 1 << 30
        config.set_flag(trt.BuilderFlag.FP16)
        
        engine = builder.build_engine(network, config)
        with open(engine_file_path, 'wb') as f:
            f.write(engine.serialize())

多线程处理：

图像采集与预处理：独立线程
模型推理：GPU加速
结果后处理与通信：CPU线程

6.3 性能测试

在工业现场测试，系统性能如下：

检测速度：48 FPS (2080×1536分辨率)
检测精度：96.3% mAP@0.5
漏检率：<2%
误检率：❤️%
适应产线速度：最高120m/min

7. 结论与展望

7.1 结论

本文针对钢铁表面缺陷检测任务，提出了一种基于改进YOLOv5的目标检测方法。通过构建多类别缺陷数据集、优化网络结构和损失函数，显著提高了缺陷检测的准确率，特别是对小缺陷的检测能力。实验结果表明，我们的方法在钢铁缺陷数据集上达到了96.8%的mAP@0.5，优于其他主流目标检测算法，证明了该方法的有效性和实用性。