RCNN学习笔记(0):rcnn简介

RCNN开创了深度学习在目标检测领域的应用,通过提取高质量的候选区域并利用深度网络进行特征提取,显著提升了检测精度。

reference link: http://blog.csdn.NET/shenxiaolu1984/article/details/51066975

Region CNN(RCNN)可以说是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂,2010年更带领团队获得终身成就奖,如今供职于Facebook旗下的FAIR。 
这篇文章思路简洁,在DPM方法多年平台期后,效果提高显著。包括本文在内的一系列目标检测算法RCNN,Fast RCNNFaster RCNN代表当下目标检测的前沿水平,在github都给出了基于Caffe的源码。

思想

本文解决了目标检测中的两个关键问题。

问题一:速度

经典的目标检测算法使用滑动窗法依次判断所有可能的区域。本文则预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,进行判断。

问题二:训练集

经典的目标检测算法在区域中提取人工设定的特征(Haar,HOG)。本文则需要训练深度网络进行特征提取。可供使用的有两个数据库: 
一个较大的识别库(ImageNet ILSVC 2012):标定每张图片中物体的类别。一千万图像,1000类。 
一个较小的检测库(PASCAL VOC 2007):标定每张图片中,物体的类别和位置。一万图像,20类。 
本文使用识别库进行预训练,而后用检测库调优参数。最后在检测库上评测。

流程

RCNN算法分为4个步骤 
- 一张图像生成1K~2K个候选区域 
- 对每个候选区域,使用深度网络提取特征 
- 特征送入每一类的SVM 分类器,判别是否属于该类 
- 使用回归器精细修正候选框位置 

这里写图片描述

候选区域生成

使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下: 
- 使用一种过分割手段,将图像分割成小区域 
- 查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置 
- 输出所有曾经存在过的区域,所谓候选区域

候选区域生成和后续步骤相对独立,实际可以使用任意算法进行。

合并规则

优先合并以下四种区域: 
1.颜色(颜色直方图)相近的 
2.纹理(梯度直方图)相近的 
3.合并后总面积小的 
4.合并后,总面积在其BBOX中所占比例大的

其中第三条:保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其他小区域。

例:设有区域a-b-c-d-e-f-g-h。较好的合并方式是:ab-cd-ef-gh -> abcd-efgh -> abcdefgh。 
不好的合并方法是:ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

其中第四条:保证合并后形状规则。

例:左图适于合并,右图不适于合并。 
这里写图片描述

上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来,速度较快。


多样化与后处理

为尽可能不遗漏候选区域,上述操作在多个颜色空间中同时进行(RGB,HSV,Lab等)。在一个颜色空间中,使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。作者提供了Selective Search的源码,内含较多.p文件和.mex文件,难以细查具体实现。

特征提取

预处理数据

使用深度网络提取特征之前,首先把候选区域归一化成同一尺寸227×227。 
此处有一些细节可做变化:外扩的尺寸大小,形变时是否保持原比例,对框外区域直接截取还是补灰。会轻微影响性能。

网络结构 
基本借鉴Hinton 2012年在Image Net上的分类网络2,略作简化3。 
这里写图片描述 
此网络提取的特征为4096维,之后送入一个4096->1000的全连接(fc)层进行分类。 
学习率0.01。

训练数据 
使用ILVCR 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号。

调优训练

网络结构 
同样使用上述网络,最后一层换成4096->21的全连接网络。 
学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景。

训练数据 
使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景。 
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。

类别判断

分类器 
对每一类目标,使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征,输出是否属于此类。 
由于负样本很多,使用hard negative mining方法。 
正样本 
本类的真值标定框。 
负样本 
考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本

位置精修

目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。 回归器对每一类目标,使用一个线性脊回归器进行精修。正则项 λ=10000
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。 训练样本判定为本类的候选框中,和真值重叠面积大于0.6的候选框。

结果

论文发表的2014年,DPM已经进入瓶颈期,即使使用复杂的特征和结构得到的提升也十分有限。本文将深度学习引入检测领域,一举将PASCAL VOC上的检测率从35.1%提升到53.7%。 
本文的前两个步骤(候选区域提取+特征提取)与待检测类别无关,可以在不同类之间共用。这两步在GPU上约需13秒。 
同时检测多类时,需要倍增的只有后两步骤(判别+精修),都是简单的线性运算,速度很快。这两步对于100K类别只需10秒。

### 关于NULL的理解 在C语言中,`NULL` 是一个特殊的宏定义,其本质是一个值为 `0` 的指针。这里的 `0` 并不是一个普通的整数零,而是一个特定的内存地址——即 **空地址** 或者称为 **零地址**[^1]。 具体来说,在不同的编程环境中,`NULL` 可能有不同的实现方式。例如: - 在 C++ 中,通常会简单地将 `NULL` 定义为 `0`。 - 而在纯 C 环境下,则可能将其定义为 `(void*)0`,这表明它是一个指向 `void*` 类型的特殊指针[^2]。 #### NULL的实际意义 当程序员使用 `NULL` 来初始化或者赋值给某个指针时,实际上是在告诉该指针不指向任何有效的内存位置。这种做法有助于防止程序尝试访问非法或未分配的内存区域从而引发崩溃或其他不可预测的行为。 然而需要注意的是,如果试图解引用一个被设置成 `NULL` 的指针(比如通过此指针对其所假设存在的对象执行操作),大多数现代操作系统都会触发保护机制并抛出异常—这就是所谓的“段错误(segmentation fault)”现象。 下面展示如何安全地处理涉及 `NULL` 的情况的一个例子: ```c #include <stdio.h> #include <stdlib.h> int main() { int *p = NULL; // 正确地声明了一个初始为空(null)状态下的整型指针 if (p != NULL){ printf("%d\n", *p); } else{ puts("Pointer is null, cannot dereference."); } return EXIT_SUCCESS; } ``` 上述代码片段展示了良好的实践方法:总是先检查指针是否非空再对其进行进一步的操作。 ### Fast R-CNN学习资源推荐 对于希望深入研究Fast R-CNN算法及其应用的人来说,可以从以下几个方面入手获取相关资料和笔记: 1. 原论文阅读:“Rich feature hierarchies for accurate object detection and semantic segmentation.” 这篇由Ross Girshick等人发表的文章详细介绍了R-CNN系列模型的基础理论框架以及改进版本Fast/Faster R-CNN的设计思路。 2. GitHub项目探索:许多开发者基于原始研究成果开发出了开源实现库,这些仓库不仅包含了完整的源码还附带详细的文档说明。例如官方caffe实现或者其他社区贡献如PyTorch迁移版等都是非常宝贵的第一手参考资料。 3. 博客文章总结:网络上也有不少个人撰写的教程类博文专门讲解Fast R-CNN的工作原理、训练流程还有调参技巧等内容,适合初学者快速入门的同时也能帮助有一定基础的人巩固知识点。 4. MOOC课程观看:一些知名大学开设的数据科学/机器视觉方向在线教育平台提供了系统的授课视频材料覆盖到目标检测领域内的经典技术包括但不限于Fast R-CNN家族成员们。 5. 技术论坛交流讨论:像Stack Overflow,Cross Validated这样的问答网站聚集了大量的专业人士可以就遇到的具体问题寻求解答;另外Reddit子板块r/MachineLearning也是分享心得体验的好地方。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值