钢铁缺陷检测mask rcnn版本

本文详述了使用tensorflow实现Mask RCNN进行钢铁缺陷检测的全过程,包括数据预处理、训练过程中的参数调整(如RPN_ANCHOR_SCALES)、自定义优化器、损失加权和dropout等,最终模型达到86%的准确率。

一、项目主框架代码(tensorflow版本的Mask RCNN)

Mask RCNN论文及代码解析参考我的另一篇博客:https://blog.youkuaiyun.com/qq_32172681/article/details/99761084

Mask RCNN keras实现代码,大神的github地址:https://github.com/matterport/Mask_RCNN

运行环境:tensorflow_gpu 1.14.0,CUDA版本是10.0,cudnn版本号7.4.1,python3.6,tensorflow+keras实现。

 

二、训练过程

1、数据预处理/标签预处理

数据预处理:

去均值

数据增强imgaug

共12000+张图像,其中10000张为训练集,其他为验证集

 

标签预处理:

(1)标签格式

训练集的标签采用RLE编码,RLE编码见我的另一篇博客:https://blog.youkuaiyun.com/qq_32172681/article/details/100537042

如下图所示:ImageId_ClassId为image_name+"_"+class_id,EncodedPixels为图片的RLE编码,一共有4类缺陷,因此每4行数据表示一个图片的标签。

 

(2)将EncodedPixels转换为mask和bbox

  • 1个EncodedPixels得到1个mask,它的size为图像大小[256,1600],1表示mask,0表示background
  • 1个mask得到多个bbox:(x1,y1,x2,y2)

此部分代码参考自kaggle public kernel:https://www.kaggle.com/applefish/get-bboxes-from-segmentation-labels

"""将rle编码转换为mask数组(size=[256,1600],1表示mask,0表示background)"""
def rle_decode(mask_rle, shape=(768, 768)):
    """
    mask_rle: run-length as string formated (start length)
    shape: (height,width) of array to return
    Returns numpy array, 1 - mask, 0 - background
    """
    s = mask_rle.split()
    starts, lengths = [np.asarray(x, dtype=int) for x in (s[0:][::2], s[1:][::2])]
    starts -= 1
    ends = starts + lengths
    img = np.zeros(shape[0] * shape[1], dtype=np.uint8)
    for lo, hi in zip(starts, ends):
        img[lo:hi] = 1
    return img.reshape((shape[1], shape[0])).T  # Needed to align to RLE direction

""""""
def masks_as_image(in_mask_list, all_masks=None, shape=(256, 1600)):
    # Take the individual masks and create a single mask array
    if all_masks is None:
        all_masks = np.zeros(shape, dtype=np.int16)
    # if isinstance(in_mask_list, list):
    for mask in in_mask_list:
        if isinstance(mask, str):
            all_masks += rle_decode(mask, shape)
    return np.expand_dims(all_masks, -1)


"""从一个rle编码的mask,获取所有的bbox"""
def get_bboxes_from_rle(encoded_pixels, return_mask=False):
    """get all bboxes from a whole mask label"""
    """将rle编码转换为mask(size=[256,1600],1表示mask,0表示background)"""
    mask = masks_as_image([encoded_pixels])
    lbl = label(mask)

    props = regionprops(lbl)

    # get bboxes by a for loop
### 使用Mask R-CNN进行钢材表面缺陷检测 #### 数据准备 为了使用Mask R-CNN进行钢材表面缺陷检测,首先需要收集并整理适合该任务的数据集。如果现有的公开数据集中没有合适的资源,则需自行采集和标注数据。对于已有的一些基础设施裂缝数据集,如CrackForest-dataset[^4],虽然不是专门针对钢材缺陷,但仍可作为初步实验的基础。 #### 模型构建与训练 基于ResNet架构建立骨干网络,并在其上叠加FPN模块以增强多尺度特征表达能力。通过RPN算法生成候选区域,在这些区域内应用ROI Align层获取更精准的位置信息。整个流程如下: 1. **输入图像预处理** 对原始图片做标准化、裁剪等操作以便适应神经网络的要求。 2. **定义基础卷积网络(Backbone Network)** 利用已有的ResNet模型作为主干网路完成低级到高级语义特性的抽取工作。 3. **引入Feature Pyramid Networks (FPN)** 构建自顶向下的路径以及横向连接机制加强不同层次间的信息交互效果。 4. **Region Proposal Network(RPN)** 设计用于预测边界框位置及其类别概率的小型子网。 5. **RoIAlign Layer** 将感兴趣区映射回原图尺寸大小的同时保持空间分辨率不变从而提高分割精度。 6. **分类+回归分支(Classification & Bounding Box Regression Branches)** 输出最终的物体类别标签及坐标参数估计值。 7. **掩码生成(Mask Generation)** 创建二值化的实例分割mask表示特定对象轮廓范围内的每一个像素点归属情况。 ```python import torch from torchvision.models.detection.mask_rcnn import maskrcnn_resnet50_fpn model = maskrcnn_resnet50_fpn(pretrained=True) # 设置为评估模式 model.eval() # 假设我们有一个名为image_tensor的张量形式的测试图像 output = model([image_tensor]) ``` 上述代码展示了如何加载预训练好的Mask R-CNN模型,并将其设置为评估模式来执行推理过程。实际部署时还需要根据具体的应用场景调整超参数配置、优化损失函数设计等方面的工作。 #### 应用案例分析 在一个典型的钢铁生产线上实施这样的解决方案可以帮助自动识别产品表面上可能出现的各种瑕疵,比如裂纹、气孔或其他形态不规则的现象。这不仅提高了检验效率而且减少了人为因素带来的误差风险。通过对大量历史样本的学习积累经验,使得系统能够在遇到新类型的问题时也具备较强的泛化能力和鲁棒性表现。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值