【机器学习入门】使用YOLO模型进行物体检测

挑食的孩子不可爱

已于 2024-04-07 17:31:04 修改

阅读量1.3k

点赞数 8

分类专栏：机器学习案例分析文章标签：机器学习 YOLO 人工智能目标检测 python pytorch 计算机视觉

于 2024-04-05 20:46:52 首次发布

本文链接：https://blog.youkuaiyun.com/m0_53294028/article/details/137157329

版权

系列文章目录

第1章专家系统
 第2章决策树
 第3章神经元和感知机
 识别手写数字——感知机
 第4章线性回归
 第5章逻辑斯蒂回归和分类
 第5章支持向量机
 第6章人工神经网络(一)
第6章人工神经网络(二) 卷积和池化
 第6章使用pytorch进行手写数字识别

前言

在此之前，我们都是用模型解决简单的二分类、多分类问题或者是回归问题。这一篇开始解决稍微复杂的问题：物体检测。
不同于图片分类时的输入图片仅包含一个物体，并且位于图片中央，占据图片的大部分未知；物体检测的任务恰与之相反，任务目标主要是识别图像中的物体位置，用矩形框标注出物体的位置，同时给出物体类别。
在这里插入图片描述
物体检测技术,已经广泛应用于人脸检测 \行人检测系统 \辅助驾驶车辆检测等等中.

一、物体检测技术

在传统方法中，物体识别可以拆分为两个步骤。第1步是从图像中识别局部特征，物体由局部特征组合构成。第2步是找到能够组合成物体的局部特征，判断它们所属的物体类别，进而确定物体的位置和大小。
图像的局部特征通常是将局部图像颜色和梯度分布描述为向量，相似的纹理或者形状通常具有类似的分布。将物体描述为局部特征组合的方法大致可以分为两类，一类方法类似于自然语言处理中的"词袋模型"。词袋模型将句子和文章描述为单词出现的频率，忽略了单词之间的位置关系。我们也可以忽略局部特征之间的位置关系，将物体视为局部特征的无序组合。另一类方法则把位置关系作为约束条件，那么寻找能够构成物体的特征组合就变成了有约束的优化问题。
人们在使用神经网络解决物体检测问题的时候，最初也采取了分步的策略。由于神经网络已经解决图像分类问题，于是可以将图片的局部拿来进行分类。只要用分类器扫描整幅图像的各个位置，就可以找到物体并将它的类别识别出来。暴力扫描的方式显然是效率低下的，于是人们提出了各种算法来筛选可能存在物体的候选框，减少候选框的数量来提高算法的性能。另一种策略是单步的方法，也叫作端到端的方法，即将整幅图像直接作为输入，同时输出物体框和类别，没有中间步骤。两种方法各有千秋。分步方法通常具有更高的准确率，可以处理大量小物体，但是提取候选框的过程中无法利用物体类别信息，进行物体分类时无法利用图像其他位置的背景信息。端到端的单步方法实现起来更为直接，运行速度通常更快，在识别物体时能够利用整幅图像的背景信息，但是有时会漏掉一些数量较多的小物体。

物体检测算法的发展经历了从传统方法到深度学习方法的转变。以下是一些重要的算法和它们的特点：

传统物体检测算法
Haar特征+Adaboost：2001年Viola和Jones提出了基于Haar特征和Adaboost的快速人脸检测方法。这种方法通过集成多个弱分类器来构建一个强分类器，能够实现实时检测。
HOG（Histogram of Oriented Gradients）：HOG是一种描述图像局部特征的方法，通过统计图像局部区域的梯度方向直方图来构建特征，广泛应用于物体检测和行人检测。
SVM（Support Vector Machine）：支持向量机是一种监督学习模型，用于分类和回归分析。在物体检测中，SVM可以作为分类器来识别图像中的目标。
深度学习物体检测算法
R-CNN（Regions with CNN features）：R-CNN首先使用选择性搜索（Selective Search）提取候选区域，然后使用CNN提取特征，最后通过SVM进行分类。R-CNN开启了深度学习在物体检测领域的应用。
Fast R-CNN：Fast R-CNN改进了R-CNN的效率问题，通过RoI（Region of Interest）Pooling层来提取固定大小的特征，并且实现了网络的端到端训练。
Faster R-CNN：Faster R-CNN引入了RPN（Region Proposal Network）来自动生成高质量的候选区域，进一步提高了检测速度。
YOLO（You Only Look Once）：YOLO将物体检测问题视为一个回归问题，通过单个神经网络直接从图像像素到边界框坐标和类别概率的映射，实现了实时检测。
SSD（Single Shot MultiBox Detector）：SSD在不同尺度的特征图上进行检测，能够同时处理不同大小的目标，也适用于实时检测场景。

常用的物体检测数据集

PASCAL VOC：PASCAL VOC挑战赛是物体检测领域的一个重要基准，提供了丰富的图像和标注，用于评估和训练物体检测算法。
COCO（Common Objects in Context）：COCO数据集包含了大量图像，每张图像中都包含多个目标，提供了更加复杂和多样的场景，是目前最流行的物体检测数据集之一。
ImageNet：虽然ImageNet主要以分类任务著称，但它也提供了物体检测的挑战，即ImageNet Large Scale Visual Recognition Challenge（ILSVRC）中的物体检测任务。
Objects365：由旷视科技发布的Objects365数据集是目前最大的物体检测数据集之一，包含63万张图像，覆盖365个类别，提供了更加丰富和多样的数据用于训练和测试物体检测算法。

这些算法和数据集共同推动了物体检测技术的发展和进步，使得计算机视觉系统能够更好地理解和解释图像内容。随着技术的不断演进，未来可能会出现更多高效、准确的物体检测算法和更加丰富多样的数据集。

二、YOLO模型

YOLO模型的全称是You Only Look Once，也就是说，神经网络模型只“看”一次，就输出物体检测的结果，是一种端到端的方法。
前反馈神经网络的输出长度一般是固定的（带有反馈的循环神经网络确实可以产生不固定长度的输出，也可以用于物体检测任务），然而一张图像中物体的数量是不确定的，如何将数量不确定的物体用固定长度的输出向量表示出来，这就是YOLO的关键。

模型设计思路

模型的思路是：将图像划分为大小相等的网格，每个网格负责输出中心点落在其中的物体框。假设物体类别数量为 $K$ ，那么，每个物体框可以用一个长度为 $5 + K$ 的向量表示，即 $t_x,t_y,t_w,t_h,c,p_1,p_2,...,p_K)$ 。前4个元素分别用来计算物体框的中心坐标和物体框的尺寸，第5个元素用于表示物体框中是否识别出物体的置信度(confidence)；剩余 $K$ 个元素表示物体属于各个类别的概率。如果将图片切割为 $\times S$ 个网格，那么神经网络的输出维度为 $\times S \times (5+K)$ 。
实际物体框的形状并不是完全随机的，如果对图片数据集中的标记进行统计，可以发现，物体框总是接近一些“常见”的尺寸。通过对训练数据集中的物体框尺寸进行聚类，可以得到若干个最常见的物体框尺寸，其他物体框可以看作这些常见物体框上进行“微调”的结果。这些聚类得出的常见物体框被称作“先验物体框”(prior)或“锚定物体框”(anchor)。
假设取A个先验物体框，那么神经网络的输出维度应该为 $\times S \times A \times (5+K)$ ，即每个网格输出A个物体框，分别基于先验物体框进行微调。

物体框的位置计算方式
设每个网格的长宽为单位1，每个网格输出的前两维 $t_x,t_y)$ 经过Sigmoid函数之后，变成 $(0, 1)$ 之间的数值，用来表示物体中心距离网格左上角的偏移量，加上网格左上角的坐标 $c_x,c_y)$ ，就得到了物体框中心的坐标 $(b_x,b_y)=(c_x+\sigma(t_x),c_y+\sigma(t_y))$ 。对于物体框的尺寸，网格输出的第3、4维 $t_w,t_h)$ 经过指数函数，得到正实数值 $e^{t_w},e^{t_h})$ ，再乘以先验物体框尺寸 $p_w,p_h)$ ，就得到了预测物体框的尺寸

最低0.47元/天解锁文章