精读论文RCNN

最新推荐文章于 2024-09-08 20:44:54 发布

原创最新推荐文章于 2024-09-08 20:44:54 发布 · 395 阅读

CC 4.0 BY-SA版权

6 篇文章

订阅专栏

背景：2014年在经典的voc数据集上，目标的检测性能趋于稳定。最好的方法就是通过融合多个低级图像特征从而得到高级特征的系统（一个融合了多个有高级上下文的低级图像特征的系统）。

RCNN设计之初：是应用recognition in region策略，应用CNN提取图片的区域特征，用来分类（区分前景背景，以及具体的类别）。实验中发现，检测误差主要来源于定位不准，增加了一个简单的box regression后检测精度大大提高。

1. 不同分类别共享权值，节省计算时间，节省内存，简化后面的分类模型参数量。

2.可以很容易地扩展类别数目，而不用借助哈希之类的近似技术。

因此我们选择使用“recogniton using regions”策略解决这一问题。这种方法在检测和分割上都是可行的。

- - 在ImageNet数据集上训练一个1000类别的CNN网络。lr=0.01
  - 再将网络输出改成N+1,在wrap图片上进行微调。用SGD进行参数更新。lr=0.001.
  - treat所有的region proposal策略：如果与GT的Iou >= 0.5,则认为是正样本，否则为负样本。
  - 每一次迭代，均匀采样128个样本，其中32个正样本，96个负样本。之所以这么设计是因为现实中正样本本来就少于负样本。
目标类别分类器：提取完特征后，对每一个类优化一个线性的SVM分类器。

- - Iou == 0，backgroud
  - iou > ? , foreground 也就是对于部分包含目标的box如何界定其属于背景还是前景。最后通过在验证集上对[0,0.5]之间的值进行试验，得到一个最合适的iou threshold = 0.3 iou <= 0.3, backgroud
  - Positive examples are defifined simply to be the ground-truth bounding boxes for each class.
  - 由于训练数据太大，采用了标准的困难负样本挖掘方式。该方式收敛很快，map也在所有样本完成一次训练后就停止增长。
？？对于训练CNN模型和SVM时对正负样本的定义不同的解释：

在训练分类SVM时使用与训练CNN模型一样的定义，发现效果很差。iou在（0.5，1）之间的proposals，但却不是gt，使得正样本是现在新策略的将近30倍之多。我们猜想这么大的数据集在微调CNN时可以避免过拟合。然而，对于网络精确定位却不是最佳选择。

？？为甚不用CNN模型出来的softmax分类器直接判断目标类别。我们做过实验，发现直接用softmax分类，map为50.9%（svm 54.2%）。我们推断可能是：finetune时正负样本的定义没有强调精确定位，而softmax分类在随机采样的负样本上训练，而不是在（svm的）困难负样本上。

该数据集的train里的数据并没有并完全标记，val和test被完全标记了，而且两者具有相同的分布。而且该数据集的分布很不均衡。train数据集里大部分图片是目标位于中心的单目标图片。train中的每一个类都有一个额外的负样本集，该集是通过仔细挑选的，保证里边没有该类的目标。
train数据集不能用作困难负样本挖掘，因为里边有未标记的数据。
将val数据集均分成两份，一份用于训练，一份用于验证。用搜索聚类算法分出一些不同的数据集，选择类别平衡度好一些的split数据集。
finetune : 正样本：val1和trainN的gt, 负样本：从val1随机采样的图片。bb regression是用val1训练的。