铝片表面缺陷检测数据集的深度学习应用与实践

原创于 2025-07-26 13:00:44 发布 · 617 阅读

CC 4.0 BY-SA版权

部署运行你感兴趣的模型镜像

简介：在计算机视觉和机器学习领域，铝片表面缺陷检测数据集是训练深度学习模型的关键资源，包含超过400张带注释缺陷的铝片图像。数据集遵循COCO格式，适用于图像分类、对象检测和分割任务。通过深度学习技术，如Faster R-CNN、YOLO或Mask R-CNN等模型，可以训练模型识别和定位铝片表面的多种缺陷。数据增强技术可提高模型的泛化能力，最终实现自动化检测，提升生产效率与质量控制。
铝片表面缺陷检测数据集

1. 铝片表面缺陷检测概述

在现代制造工业中，铝片的生产与加工是一个复杂且精细的过程。铝片表面缺陷的存在，即使是最微小的，也可能导致产品性能的下降，甚至引起安全问题。因此，实施有效的表面缺陷检测对于保证产品质量和安全至关重要。

表面缺陷检测技术的发展经历了从人工视觉检查到使用高级机器视觉和计算机视觉技术的演进。这种演变不仅提高了检测的精确度和效率，还为自动化生产流程提供了强大的支持。铝片表面缺陷检测的主要目标是识别和分类铝片表面的划痕、凹坑、裂纹、油污、异物污染等缺陷类型。

在接下来的章节中，我们将深入探讨计算机视觉技术在工业检测中的应用，了解深度学习模型的训练过程，以及如何利用COCO数据集和其他数据增强技术来优化检测模型。通过这些方法，工业界可以建立起更高效、更精准的表面缺陷检测系统，从而推动整个制造业的创新和升级。

2. 计算机视觉在工业中的应用

2.1 计算机视觉技术简介

2.1.1 计算机视觉的基本原理

计算机视觉是一门模仿人类视觉系统的学科，它通过软件算法使得计算机能够解释和理解视觉信息。计算机视觉的基本原理涉及图像获取、处理、分析和理解，最终实现对场景或物体的识别、分类、跟踪等功能。

图像获取 ：使用相机或其他成像设备捕获二维图像数据。
预处理 ：通过滤波、去噪等方法提高图像质量。
特征提取 ：检测图像中特定的模式或特征点。
对象识别 ：将提取的特征与已知对象匹配，进行分类或识别。
三维重建 ：基于多个视点的二维图像重建三维模型。

在工业检测中，计算机视觉技术可以自动化地发现产品缺陷，提高生产效率和产品质量。

import cv2
import numpy as np

# 读取图像
image = cv2.imread('industrial_image.jpg')

# 预处理：转为灰度图
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 应用边缘检测
edges = cv2.Canny(gray, threshold1=100, threshold2=200)

# 查找轮廓
contours, _ = cv2.findContours(edges, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

# 标记轮廓
cv2.drawContours(image, contours, -1, (0,255,0), 3)

# 显示图像
cv2.imshow('Detected Contours', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

在以上代码中，我们使用了OpenCV库来进行计算机视觉处理。首先，我们读取一个工业图像，并将其转换为灰度图像，然后应用Canny边缘检测算法来识别图像中的边缘。之后，我们查找和绘制轮廓，以可视化可能的缺陷区域。

2.1.2 计算机视觉在工业检测中的重要性

计算机视觉在工业检测中的重要性体现在其能够快速准确地进行质量控制。与传统的人工检测相比，计算机视觉系统可以24小时不间断工作，不受人为因素影响，极大地提高了检测速度和准确率。

计算机视觉系统通常与机械臂、自动化输送系统等集成，以实现自动化的质量检测流程。这样的系统能够及时发现产品缺陷，并进行分类和记录，对生产过程中的质量控制具有重要价值。

2.2 工业表面检测的需求分析

2.2.1 表面缺陷的种类和特征

铝片表面缺陷主要包括划痕、凹坑、裂纹、斑点、油污等。每种缺陷都具有特定的形态和特征，如划痕可能是长条形的、凹坑可能有明显的边界等。这些特征是计算机视觉系统识别和分类缺陷的基础。

缺陷检测需要细致的特征分析，以确保系统能够准确识别各种缺陷。除了形状特征，颜色、纹理、尺寸和缺陷出现的频率等因素也需要被考虑在内。

2.2.2 检测系统的性能要求

铝片表面检测系统需要具备高准确率和高效率，即检测速度快且误报率低。在实际工业生产中，对检测系统还有如下要求：

实时性 ：系统应能够在生产线上实时检测铝片，对缺陷进行即时反馈。
稳定性 ：系统应具备高稳定性，能够适应生产线上的变化，如光照、速度等。
兼容性 ：系统应能与其他自动化设备兼容，并支持软件层面的集成和交互。
可扩展性 ：随着生产工艺的改进和技术的发展，系统应易于扩展和升级。

2.3 计算机视觉技术在表面检测的应用案例

2.3.1 表面缺陷检测系统的组成

一个典型的表面缺陷检测系统通常包括以下几个部分：

图像采集单元 ：通过高速工业相机获取铝片表面图像。
照明单元 ：提供均匀、稳定的光源，减少反光、阴影等带来的干扰。
图像处理单元 ：对采集到的图像进行预处理、特征提取和缺陷识别。
决策单元 ：根据识别结果做出是否合格的决策，并给出相应的反馈信号。

graph LR
    A[图像采集单元] -->|图像数据| B[图像处理单元]
    B -->|特征信息| C[决策单元]
    C -->|合格/不合格| D[生产线控制]
    B -->|实时反馈| E[照明单元]
    E -->|光源调整| B

2.3.2 案例研究：铝片表面缺陷检测系统的实现

在铝片生产线上，我们设计了一套表面缺陷检测系统，该系统使用了高分辨率工业相机以及定制的照明系统，以确保在不同生产条件下均能获取高质量图像。通过使用先进的图像处理算法和深度学习模型，我们成功实现了对铝片表面缺陷的自动检测。

对于检测出的每一种缺陷，系统都能够提供相应的分类和报告，以指导后续的修复或剔除工作。系统的部署显著提高了铝片生产的质量控制水平，减少了人工检测的资源消耗，提高了生产效率。

from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

# 假设我们已经训练好了一个深度学习模型
# model = ... (模型定义)

# 预测结果
y_true = ['defect', 'no_defect', 'defect', ...]
y_pred = model.predict(test_images)

# 生成报告
print(classification_report(y_true, y_pred))

# 生成混淆矩阵
cm = confusion_matrix(y_true, y_pred)
print(cm)

在此代码中，我们使用了sklearn库来评估分类模型的性能。首先，我们定义了真实的标签列表和模型的预测结果，然后通过 classification_report 函数生成了分类报告，该报告包含了准确率、召回率等重要性能指标。此外，我们还使用 confusion_matrix 函数生成了混淆矩阵，以可视化地展示模型在各个类别上的性能表现。

3. 深度学习模型的训练过程

深度学习模型的训练是一个复杂的迭代过程，涉及到大量的数据处理、模型设计、优化算法和参数调整。为了有效地训练深度学习模型，并使其在表面缺陷检测任务中达到高性能，我们需要遵循一系列标准化的步骤。在本章中，我们将深入了解深度学习模型训练过程的各个方面，从基础的理论到实际的实施细节，覆盖模型训练的基本流程以及更高级的技术。

3.1 深度学习基础知识

深度学习作为机器学习的一个子领域，基于神经网络的原理构建复杂的数据表示。神经网络是深度学习的基础，并且通过模拟人脑神经元的方式学习数据的特征和规律。

3.1.1 神经网络的基本结构和工作原理

神经网络由一系列层构成，包括输入层、隐藏层和输出层。在每个层中，都有一组神经元（节点），它们通过权重连接到上一层的神经元。数据通过输入层进入网络，并在隐藏层中经过计算，最终产生输出层的结果。

# 一个简单的全连接神经网络示例
import torch.nn as nn

class SimpleNN(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_size, num_classes)
    def forward(self, x):
        out = self.fc1(x)
        out = self.relu(out)
        out = self.fc2(out)
        return out

在上述代码中，我们定义了一个简单的神经网络，包括一层隐藏层。 forward 方法定义了数据如何在神经网络中流动。每个 nn.Linear 表示一个全连接层，而 nn.ReLU 是一种激活函数。

3.1.2 深度学习框架选择和使用

深度学习框架为研究者和开发人员提供了构建神经网络和训练模型的工具和库。流行的深度学习框架包括TensorFlow、PyTorch、Keras等。它们各有优势，如易用性、性能和社区支持等。

# 使用PyTorch框架训练一个简单的全连接神经网络
model = SimpleNN(input_size=20, hidden_size=50, num_classes=10)

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 模型训练循环的伪代码
for epoch in range(num_epochs):
    for inputs, labels in dataloader:
        optimizer.zero_grad()   # 清空梯度
        outputs = model(inputs)  # 前向传播
        loss = criterion(outputs, labels)  # 计算损失
        loss.backward()   # 反向传播计算梯度
        optimizer.step()  # 更新权重

在上面的代码示例中，我们初始化了模型、损失函数和优化器，然后进入模型训练循环。这是一个典型的训练流程，其中包括了对数据的前向传播、损失函数的计算、梯度的反向传播以及权重的更新。

3.2 模型训练的基本流程

深度学习模型训练的基本流程包括数据预处理、模型架构设计、损失函数和优化器的选择、以及模型的训练与验证策略。这一部分是深度学习模型训练的核心，也是模型性能提升的关键。

3.2.1 数据预处理与模型输入

数据预处理是深度学习模型训练的第一步，它包括数据清洗、标准化、归一化、增强等步骤。预处理后的数据将符合模型输入的要求，这是模型能够正确学习的前提。

# 数据标准化的代码示例
def normalize(data):
    mean = torch.mean(data, dim=0)
    std = torch.std(data, dim=0)
    return (data - mean) / std

# 假设data是输入数据的张量
normalized_data = normalize(data)

数据标准化是预处理中常见的一步，它使数据具有零均值和单位方差，有助于模型的收敛。

3.2.2 损失函数和优化器的选择

损失函数衡量了模型的预测输出和真实标签之间的差异。选择合适的损失函数对于优化特定类型的模型和任务至关重要。例如，分类任务通常使用交叉熵损失函数。

# 损失函数选择的代码示例
criterion = nn.CrossEntropyLoss()

优化器负责根据损失函数计算出的梯度来更新模型的参数。常见的优化器包括SGD、Adam、RMSprop等。

# 优化器选择的代码示例
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

3.2.3 模型的训练与验证策略

训练策略包括设置训练的轮数（epochs）、批次大小（batch size）、学习率等。验证策略则通常涉及在独立的验证数据集上评估模型的性能，以监控和防止过拟合。

# 训练和验证策略的代码示例
num_epochs = 10
batch_size = 64

for epoch in range(num_epochs):
    # 训练模型
    for inputs, labels in dataloader_train:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
    # 验证模型
    with torch.no_grad():
        correct = 0
        total = 0
        for inputs, labels in dataloader_val:
            outputs = model(inputs)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    print(f'Epoch {epoch+1}, Accuracy: {100*correct/total}%')

在上面的代码中，我们使用了标准的训练循环，并在每个epoch结束时在验证集上评估模型性能。

3.3 模型训练的高级技术

高级技术可以显著提高模型的性能和泛化能力。这些技术包括超参数调优、模型正则化、迁移学习和模型微调等。

3.3.1 超参数调优与模型正则化

超参数是在模型训练前设置的参数，如学习率、批次大小、层数等。超参数调优是一个寻找最佳超参数组合的过程，这通常通过网格搜索、随机搜索或贝叶斯优化等方法完成。

# 学习率衰减的代码示例
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

for epoch in range(num_epochs):
    train_loss = train_model()
    scheduler.step()  # 更新学习率

模型正则化是防止过拟合的一种技术，常见的正则化方法包括L1和L2正则化、Dropout等。

# Dropout正则化的代码示例
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(784, 500)
        self.dropout = nn.Dropout(p=0.5)  # Dropout层
        self.fc2 = nn.Linear(500, 10)
    def forward(self, x):
        x = self.fc1(x)
        x = F.relu(x)
        x = self.dropout(x)
        x = self.fc2(x)
        return x

3.3.2 迁移学习和模型微调

迁移学习是利用在大规模数据集上预先训练好的模型来解决特定任务的过程。这通常涉及到微调模型的某些层，以适应新的任务。

# 使用预训练模型进行迁移学习的代码示例
model = models.resnet18(pretrained=True)
model.fc = nn.Linear(model.fc.in_features, num_classes)  # 替换最后的全连接层以匹配新任务的类别数

# 冻结模型的某些层
for param in model.parameters():
    param.requires_grad = False

# 冻结除最后几层之外的所有层
for param in model.layer4.parameters():
    param.requires_grad = True

# 微调模型
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
train_model(model, criterion, optimizer, num_epochs)

在以上代码示例中，我们使用了预训练的ResNet-18模型，并替换了最后的全连接层以适应新的分类任务。接着，我们选择性地解冻了一些层，并对模型进行了微调。

通过以上章节的介绍，我们可以看到深度学习模型的训练过程涉及多个阶段，每一个阶段都需要仔细设计和优化。在下一节中，我们将继续深入探讨数据增强技术，它为提高模型性能提供了强有力的支持。

4. ```

第四章：COCO数据集格式及应用

4.1 COCO数据集的结构与特点

4.1.1 COCO数据集的组成和格式

COCO（Common Objects in Context）数据集是一个广泛使用的图像标注数据集，尤其在计算机视觉领域内，对于目标检测、分割以及关键点检测等任务提供了丰富的标注信息。COCO数据集由微软研究院发布，它的特色在于每个图像都有详细的实例分割、边界框以及关键点标注，适用于训练和测试机器学习模型。

COCO数据集的格式遵循JSON标准，包含多个主要的字典对象，例如：”info”, “licenses”, “images”, “annotations”。其核心在于”annotations”字段，它描述了图像中每个目标的位置（边界框）、分割掩码以及关键点。每个实例都会被分配一个唯一的ID，这些ID是连续编号的，方便在多个实例之间建立引用关系。

下面是一段COCO数据集的JSON示例：

{
  "info": {
    "description": "COCO 2017 dataset",
    "url": "http://cocodataset.org",
    "version": "1.0",
    "year": 2017,
    "contributor": "COCO Consortium",
    "date_created": "2017/09/01"
  },
  "images": [
    {
      "id": 1,
      "width": 640,
      "height": 480,
      "file_name": "000000397133.jpg",
      "license": 1,
      "flickr_url": "http://farm3.staticflickr.com/2562/3971334523_5b32f21b7c.jpg",
      "coco_url": "http://images.cocodataset.org/val2017/000000397133.jpg",
      "date_captured": "2013-11-17 05:57:24"
    },
    ...
  ],
  "annotations": [
    {
      "id": 1,
      "image_id": 1,
      "category_id": 1,
      "segmentation": [[100.00, 100.00, 100.00, 150.00, ...]],
      "area": 1500.0,
      "bbox": [100.00, 100.00, 50.00, 150.00],
      "iscrowd": 0
    },
    ...
  ],
  "categories": [
    {
      "id": 1,
      "name": "person",
      "supercategory": "person"
    },
    ...
  ]
}

4.1.2 COCO数据集与其他数据集的比较

与PASCAL VOC或ILSVRC等其他流行的数据集相比，COCO数据集具有以下几个优势：

实例分割标注 ：COCO提供了每个目标实例的像素级精确分割掩码，这为实例分割任务提供了独特的训练数据。
多样化的目标类别 ：包含80个类别，远超多数其他数据集提供的类别数，更贴近真实世界的多样性。
丰富的图像数量和场景 ：COCO数据集包含超过200,000张训练图像、50,000张验证图像和20,000张测试图像，且图像取自多种自然场景。
频繁的更新与扩展 ：随着数据集的持续更新，社区可以获取到更多最新的训练和测试样本。

4.2 COCO数据集在工业检测中的应用

4.2.1 数据集的标注与转换方法

在工业检测领域，为了使用COCO数据集训练模型，我们通常需要先将数据集转换成适合特定任务的格式。例如，如果我们的任务是铝片表面缺陷检测，我们需要将COCO数据集中的通用类别标签转换为对应的缺陷类型。

数据集转换和标注通常包括以下步骤：

标签映射 ：定义COCO中的通用类别与工业缺陷类别的映射关系。
数据预处理 ：包括图像大小调整、格式转换等步骤以适配模型输入。
脚本编写 ：利用Python等脚本语言编写程序自动化标注转换过程。
数据验证 ：人工检查转换后的标注，确保转换的准确无误。

4.2.2 利用COCO数据集训练检测模型

在准备好了适用于特定任务的标注数据之后，就可以开始训练检测模型了。在训练过程中，通常遵循以下步骤：

初始化模型 ：选择一个预训练的深度学习模型，如Faster R-CNN或YOLO。
数据准备 ：加载预处理后的COCO数据集，进行数据增强以提高模型泛化能力。
模型训练 ：在COCO数据集上训练模型，调整损失函数和优化器，迭代地提升模型性能。
验证与测试 ：使用验证集和测试集评估模型的性能，并根据评估结果调整模型结构和参数。

4.3 COCO数据集的扩展与优化

4.3.1 增加领域特定的数据集

虽然COCO数据集广泛而丰富，但在特定应用领域可能还不够详细或准确。为了提高模型在特定任务上的表现，可以考虑以下方法：

数据融合 ：将COCO数据集与领域特定的数据集结合起来，扩充训练数据。
微调标注 ：针对特定任务重新标注COCO数据集中的图像，增加额外的信息。

4.3.2 数据增强技术在COCO数据集中的应用

数据增强是提高模型泛化能力的有效手段，它通过增加输入数据的多样性和变化性来避免过拟合。在使用COCO数据集时，可以采用以下几种数据增强技术：

几何变换 ：包括随机裁剪、旋转、缩放、水平/垂直翻转等操作。
颜色变换 ：如亮度调整、对比度调整、饱和度和色调变换等。
噪声注入 ：在图像中添加高斯噪声，模拟拍摄过程中可能出现的噪声干扰。

通过上述的数据增强技术，可以显著提升COCO数据集在工业检测中的表现力和应用价值。



# 5. 数据增强技术在深度学习中的作用

数据增强技术是机器学习领域中用于提升模型泛化能力的一种有效方法。其核心思想是在数据输入中引入一定的变化，以模拟真实世界中可能遇到的数据变化，使得训练得到的模型对于输入数据的小扰动具有更好的鲁棒性。在深度学习中，数据增强尤其对于图像数据特别重要，因为在实际应用中获取大量标注数据往往是耗时且昂贵的。本章将探讨数据增强在深度学习中扮演的角色，特别是在表面缺陷检测中的应用，以及数据增强技术的最新进展与趋势。

## 5.1 数据增强的理论基础

### 5.1.1 数据增强的定义和目的

数据增强可以被定义为一系列技术，用于人为地增加训练数据的多样性和数量，而不直接增加实际的物理样本。这些技术通过修改已有数据，例如图像、文本或音频，生成新的样本，模拟真实场景下可能出现的变化。数据增强的目的是扩大训练集，使模型能够学习到更加泛化的特征表示，减少过拟合，并提升模型在未见样本上的预测性能。

### 5.1.2 常用的数据增强方法

数据增强的方法很多，针对图像数据，常用的技术包括但不限于：

- **几何变换**：包括旋转、缩放、平移、翻转等。
- **颜色变换**：调整亮度、对比度、饱和度、色调等。
- **噪声注入**：添加高斯噪声、椒盐噪声等。
- **模糊处理**：对图像进行高斯模糊或运动模糊。
- **随机裁剪**：从图像中随机裁剪出一部分，训练模型识别局部特征。

这些方法可以单独使用，也可以组合使用，以获得更好的增强效果。

## 5.2 数据增强在表面缺陷检测中的应用

### 5.2.1 数据增强对模型性能的影响

在表面缺陷检测领域，数据增强技术能够显著提升深度学习模型的性能。通过应用各种变换手段，模型能够学习到更加鲁棒的特征，从而在面对实际生产中的缺陷时，即使缺陷的形状、颜色、位置等有所变化，模型也能准确识别。

### 5.2.2 实现数据增强的策略和工具

在实际操作中，实现数据增强的策略需要结合具体的应用场景和数据集的特点进行定制。对于工业表面缺陷检测而言，常见的策略包括模拟生产线上的光照变化、材料表面的反射和反光情况、以及不同角度拍摄的图像变化。

现在有许多工具可以帮助我们实现数据增强，例如：

- **Python中OpenCV库**：提供丰富的图像处理功能，用于实现几何变换和颜色变换。
- **Albumentations库**：专为图像增强设计，易于集成到深度学习框架中。
- **TensorFlow、PyTorch的内置数据增强API**：可以直接在数据加载时进行增强，简化了集成和使用流程。

以下是使用Python和OpenCV库进行图像旋转增强的一个简单例子：

```python
import cv2
import numpy as np

def rotate_image(image, angle):
    (h, w) = image.shape[:2]
    (cX, cY) = (w // 2, h // 2)
    # 计算旋转矩阵
    M = cv2.getRotationMatrix2D((cX, cY), angle, 1.0)
    cos = np.abs(M[0, 0])
    sin = np.abs(M[0, 1])
    # 计算新图像的尺寸
    nW = int((h * sin) + (w * cos))
    nH = int((h * cos) + (w * sin))
    # 调整旋转矩阵的平移部分
    M[0, 2] += (nW / 2) - cX
    M[1, 2] += (nH / 2) - cY
    # 对图像进行仿射变换
    rotated_image = cv2.warpAffine(image, M, (nW, nH))
    return rotated_image

# 读取图像
image = cv2.imread('defect.jpg')

# 旋转图像
rotated_image = rotate_image(image, 30)

# 保存旋转后的图像
cv2.imwrite('rotated_defect.jpg', rotated_image)

5.3 数据增强的最新进展与趋势

5.3.1 自动化数据增强技术

随着深度学习技术的不断发展，自动化数据增强技术应运而生。这些技术能够根据模型在验证集上的表现，智能地选择或生成最佳的数据增强策略。例如，AutoAugment使用强化学习来搜索数据增强策略，并在训练过程中动态调整以获得最优的性能。

5.3.2 数据增强在其他领域的应用

数据增强技术不仅仅适用于图像数据。在自然语言处理领域，通过回译、同义词替换、句子重构等手段可以实现文本数据的增强。在音频处理领域，通过改变音高、速率、添加回声等方法可以实现音频信号的增强。这显示了数据增强技术的通用性和跨领域的应用潜力。

本章介绍了数据增强技术在深度学习中的理论基础、在表面缺陷检测中的具体应用以及最新的研究进展。通过上述内容的学习，我们能够更好地理解数据增强在提升模型泛化能力方面的贡献，并了解如何在实际工作中有效地应用数据增强技术。

6. 常见深度学习模型架构（Faster R-CNN, YOLO, Mask R-CNN）

在计算机视觉领域，目标检测模型的进展极大推动了表面缺陷检测技术的发展。本章将深入探讨三种当前主流的深度学习模型架构：Faster R-CNN、YOLO和Mask R-CNN，以及它们在工业表面缺陷检测中的应用。

6.1 深度学习模型架构概述

6.1.1 目标检测模型的发展历程

在介绍具体模型之前，我们首先对目标检测模型的发展历程做一个概览。目标检测是从图像中识别出感兴趣的对象，并确定其位置和大小的过程。早期的目标检测模型如R-CNN和Fast R-CNN，虽然在当时的检测效果上取得了突破，但由于其运行速度较慢，不适合实时检测。随后，Faster R-CNN、YOLO和Mask R-CNN等模型相继出现，显著提升了目标检测的速度和精度。