人工智能之目标检测系列综述

最新推荐文章于 2024-08-27 19:11:08 发布

狂奔的CD

最新推荐文章于 2024-08-27 19:11:08 发布

阅读量1.8k

点赞数 2

分类专栏： AI 文章标签：目标检测人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/kkae8643150/article/details/105512438

版权

AI 专栏收录该内容

53 篇文章

订阅专栏

文章目录

前言
正文
1.传统目标检测
2.目标检测-神经网络

前言

参考 https://blog.youkuaiyun.com/jiaoyangwm/article/details/89111539
在这里插入图片描述
时间线

慢慢补充

正文

1.传统目标检测

在深度学习出现之前，传统的目标检测方法大概分为区域选择（滑窗）、特征提取（SIFT、HOG等）、**分类器（SVM、Adaboost等）**三个部分，其主要问题有两方面：一方面滑窗选择策略没有针对性、时间复杂度高，窗口冗余；另一方面手工设计的特征鲁棒性较差。
参考 https://blog.youkuaiyun.com/eternity1118_/article/details/88894617

2.目标检测-神经网络

参考：https://blog.youkuaiyun.com/electech6/article/details/95240278

概要记录：
改文章主要描述的是基于神经网络的目标检测模型
一类是基于Region Proposal的R-CNN系算法（R-CNN，Fast R-CNN, Faster R-CNN等），它们是two-stage的，需要先算法产生目标候选框，也就是目标位置，然后再对候选框做分类与回归。而另一类是Yolo，SSD这类one-stage算法，其仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置。第一类方法是准确度高一些，但是速度慢，但是第二类算法是速度快，但是准确性要低一些。这可以在下图中看到。

2-1. R-CNN

【算法流程】

输入一张图片，通过指定算法从图片中提取 2000 个类别独立的候选区域（可能目标区域）
对于每个候选区域利用卷积神经网络来获取一个特征向量
对于每个区域相应的特征向量，利用支持向量机SVM 进行分类，并通过一个bounding box regression调整目标包围框的大小

【贡献】
在2014年R-CNN横空出世的时候，颠覆了以往的目标检测方案，精度大大提升。对于R-CNN的贡献，可以主要分为两个方面：

使用了卷积神经网络进行特征提取
使用bounding box regression进行目标包围框的修正

【缺陷】

耗时的selective search，对一张图像，需要花费2s
耗时的串行式CNN前向传播，对于每一个候选框，都需经过一个AlexNet提取特征，为所有的候选框提取特征大约花费47s
三个模块（CNN特征提取、SVM分类和边框修正）是分别训练的，并且在训练的时候，对于存储空间的消耗很大

2-2. Fast R-CNN

【算法流程】

首先还是采用selective search提取2000个候选框RoI
使用一个卷积神经网络对全图进行特征提取
使用一个RoI Pooling Layer在全图特征上摘取每一个RoI对应的特征
分别经过为21和84维的全连接层（并列的，前者是分类输出，后者是回归输出）

【贡献】
Fast R-CNN的贡献可以主要分为两个方面：

取代R-CNN的串行特征提取方式，直接采用一个CNN对全图提取特征(这也是为什么需要RoI Pooling的原因)。
除了selective search，其他部分都可以合在一起训练。

Fast R-CNN通过CNN直接获取整张图像的特征图，再使用RoI Pooling Layer在特征图上获取对应每个候选框的特征，避免了R-CNN中的对每个候选框串行进行卷积（耗时较长）

【缺陷】
Fast R-CNN也有缺点，体现在耗时的selective search还是依旧存在。

2-3. Faster R-CNN

【算法流程】
Faster R-CNN由共享卷积层、RPN、RoI pooling以及分类和回归四部分组成：

首先使用共享卷积层为全图提取特征feature maps
将得到的feature maps送入RPN，RPN生成待检测框(指定RoI的位置),并对RoI的包围框进行第一次修正
RoI Pooling Layer根据RPN的输出在feature map上面选取每个RoI对应的特征，并将维度置为定值
使用全连接层(FC Layer)对框进行分类，并且进行目标包围框的第二次修正。

尤其注意的是，Faster R-CNN真正实现了端到端的训练(end-to-end training)。Faster R-CNN最大特色是使用了RPN取代了SS算法来获取RoI。

2-4.Mask R-CNN

【算法流程】
Mask R-CNN可以分解为如下的3个模块：Faster-RCNN、RoI Align和Mask。

2-5.Yolo

Yolo创造性的提出了one-stage，也就是将物体分类和物体定位在一个步骤中完成。Yolo直接在输出层回归bounding box的位置和bounding box所属类别，从而实现one-stage。通过这种方式，Yolo可实现45帧每秒的运算速度

【算法流程】
主要分为三个部分：卷积层，目标检测层，NMS筛选层

【缺陷】
Yolo算法开创了one-stage检测的先河，它将物体分类和物体检测网络合二为一，都在全连接层完成。故它大大降低了目标检测的耗时，提高了实时性。但它的缺点也十分明显

每个网格只对应两个bounding box，当物体的长宽比不常见（也就是训练数据集覆盖不到时），效果很差。
原始图片只划分为7x7的网格，当两个物体靠的很近时，效果很差
最终每个网格只对应一个类别，容易出现漏检（物体没有被识别到）。
对于图片中比较小的物体，效果很差。这其实是所有目标检测算法的通病，SSD对它有些优化，我们后面再看。

2-6.SSD

Faster R-CNN准确率mAP较高，漏检率recall较低，但速度较慢。而Yolo则相反，速度快，但准确率和漏检率不尽人意。SSD综合了他们的优缺点，对输入300x300的图像，在voc2007数据集上test，能够达到58 帧每秒( Titan X 的 GPU )，72.1%的mAP。

【算法流程】
和Yolo一样，也分为三部分：卷积层，目标检测层和NMS筛选层。SSD和Yolo一样都是采用一个CNN网络来进行检测，但是却采用了多尺度的特征图。

ps:从以上了解来看，对于微小目标检测，面临两个问题，
一是，神经网络卷积过程中的下采样，会不断忽略细节，微小物体比如10x10这样的size，使用多层卷积可能出现检测不了的情况。
二是，准确率相较大目标，会低很多

博客等级

码龄13年

196
原创

192
点赞

951
收藏

207
粉丝

关注

私信

热门文章

分类专栏

ffmpeg 13篇
linux 34篇
docker 1篇
python 7篇
gstreamer 1篇
图像处理 4篇
pyqt 1篇
杂文
知识库
git 4篇
树莓派 1篇
c 4篇
总结规划
android 17篇
opencv 12篇
web 36篇
opengl es 3篇
算法与数据结构 13篇
3d 1篇
j2ee 12篇
数学 6篇
AI 53篇

展开全部收起

最新评论

目标检测系列之yolo体系
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
windows10编译darknet
无.97: 您好博主老师，我这个报错很奇怪，都找到CUDA和CUDACXX但还是报错这个
windows10编译darknet
无.97: CUDA_PATH: C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1 CUDACXX: C:/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v10.1/bin/nvcc.exe CMake Error at CMakeLists.txt:185 (message): CUDA not found, please build explicitly with -DENABLE_CUDA=OFF if you do not want CUDA.
ffmpeg api中的内存泄漏问题
HZ35572: 请问大佬是用什么方法查出这些API内存泄漏的呀？
深度学习7 Transformer系列实例分割Mask2Former
竹杖芒鞋序行: 这个问题感觉是预训练时候的数据集类别数和现在的类别不一样，得改一下输出的维数

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。