目标检测

最新推荐文章于 2024-04-25 21:01:25 发布

原创最新推荐文章于 2024-04-25 21:01:25 发布 · 1.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #深度学习

深度学习专栏收录该内容

12 篇文章

订阅专栏

本文全面介绍了目标检测领域的经典算法，从两阶段方法R-CNN系列到一阶段方法YOLO和SSD，涵盖候选区域生成、特征提取、边界框回归、多任务损失等关键技术。深入解析了SPP-Net、Fast R-CNN、Faster R-CNN、Mask-RCNN、FPN等模型的创新点，以及YOLO、SSD的一次性检测优势。

部署运行你感兴趣的模型镜像

目标检测的任务：

发展历程：

两阶段方法

基于候选区域的目标检测器
先产生候选区域然后再进行CNN分类

R-CNN

在这里插入图片描述
1.输入图像
2.提取一些候选的检测框（约2000个）
3.为每一个候选检测框提取CNN特征
4.为每个检测框分类

候选区域生成（selective search）

选择性搜索（一种层次聚类算法）：根据颜色，纹理，尺寸和空间交替相似度提取候选区域。
在这里插入图片描述
如上图，左图自下而上第一层，先用传统方法进行分割（分水岭算法，底层图像处理算法等），可以分割得到许多局部区域，在区域中提取一轮的候选框。之后对这些分割区域进行合并，根据颜色，纹理和空间交叠相似度等，得到第二层，该层分割区域数量变少，区域大小变大，是更加粗粒度区域。在该区域可以再次得到一些候选框。对这些区域进一步合并，可以得到更大尺度的候选框。
存在问题：
1.对于每张图片需要额外步骤去提取候选框
2.存储候选框需要消耗大量的资源
2.由于当时使用的是Alexnet提取特征，输入尺寸固定，需要拉伸候选框，严重影响CNN提取特征的质量

区域分类

为每一个类（包括背景类）训练SVM
存在问题：
SVM需要单独训练，网络更复杂，耗时很长

边界框回归

通过学习一种映射关系，对目标候选框的位置进行精化。
在这里插入图片描述

SPP-Net

在这里插入图片描述
R-CNN是逐个候选区提取cnn特征，要花费大量的计算时间和存储空间。

SPP-Net是一次性提取cnn特征，再在特征图上找出对应的候选区域。减少了特征提取时间和存储空间

spatial pyramid pooling

在这里插入图片描述
将图片划分为44的小格，每个小格取一个数，22的小格每个小格进行池化和对整张图像进行全局池化，然后在合并起来，这样得到的输出就是固定的
空间池化层实际就是一种自适应的层，这样无论你的输入是什么尺寸，输出都是固定的（21xchannel）

SPP 显著特点
1.不管输入尺寸是怎样，SPP 可以产生固定大小的输出
2.使用多个窗口(pooling window)
3.SPP 可以使用同一图像不同尺寸(scale)作为输入, 得到同样长度的池化特征。

通过SPP可以将任意大小的ROI特征统一成相同尺寸，提升cnn提取的特征质量

Fast R-CNN

将分类损失和回归损失统一在一个框架内
在这里插入图片描述

RoI Pooling

将特征图块转换为固定的大小
在这里插入图片描述

不同于SPP-Net的空间金字塔池化，RoI Pooling 输出6x6的特征图，如果不能取整，则向下取整

多任务损失

softmax + regressor
在这里插入图片描述

Faster R-CNN

端到端检测网络，极大提升检测速度
在这里插入图片描述
在Fast R-CNN网络的基础上进行更改，在最后一个卷积层后添加Region Proposal Network（RPN）网络。

候选区域由RPN网络直接生成，不再靠额外的候选区域生成算法，就形成了端对端的训练网络

在这里插入图片描述
Faster R-CNN在单一尺度特征图上使用RPN网络，提取region proposal，并使用单张特征图进行预测

RPN网络

直接在卷积特征图上计算目标可能的位置
检测的是通用目标出现的概率
在这里插入图片描述
参数解释：3*3（2k+4k）的卷积核在特征图上滑动，2k对应k个anchor的前景/背景分类，4k对应k个anchor的位置偏置，k个形状的anchor boxes

具体做法：

在最后一层特征图上使用滑动窗口，构建一个小网络，来判断每个anchor（锚点）区域内是否存在目标，确定anchor边界框的位置（不同形状的锚点框在边界框回归函数中的体现），滑动窗口在特征图上的位置，对应原图上的位置，边界框回归，使anchor位置更加精确，由RPN网络可以定位出原图中可能存在物体的候选区域

FPN

特征融合，多层预测以提升精度
在这里插入图片描述
b:典型的目标检测过程，先进行特征提取，再在特征图上预测。
a:图像金字塔：在不同尺度上检测，再把结果合并。
c:特征金字塔：输入图像，提取它的浅层特征（上下文信息），中层特征，高层特征（语义信息），在不同特征层上做预测，在做结果融合。
d:特征金字塔网络：先正常提取特征，再反卷积放大，把相应层的图像1x1卷积，传过来，进行融合，再进行预测。
在这里插入图片描述

FPN在特征金字塔上使用RPN网络提取region proposal，并在特征金字塔的多个尺度上进行预测

Mask-RCNN

检测与分割一体化，优化了RoI Pooling，提出RoI Align，解决了misalignment问题，强化了基础网络，使用了ResNet-101+FPN用作特征提取网络，处理分割任务使用全卷积网络
在这里插入图片描述

RoI Align

在这里插入图片描述
RoI Align采用双线性插值

一阶段方法

单次目标检测器

直接对输入图像应用算法，直接在输出层回归边界框的位置及其所属的类别。

没有显式的目标区域位置检测

YOLO：实时检测

检测速度非常快。在做预测的时候，使用的是全局图像，背景错误分类为目标的概率低。学到物体更泛化的特征表示。

YOLO将物体检测任务当做一个regression问题来处理，使用一个神经网络，直接从一整张图像来预测出bounding box 的坐标、box中包含物体的置信度和物体的probabilities。

使用的是 GoogLeNet 架构
在这里插入图片描述
流程：
1.将输入图像划分成S*S个网格
2.每个网格预测B个边界框和这个边界框是物体概率，每个边界框会预测出5个值：x,y,width,height和置信度-（Pr(Object)*IoU(truth&pred)），分别是含有 object 的置信度和这个 box 预测的有多准的信息
3.每个网格预测C个类的概率