1.yolo
2.RCNN
步骤:
1.采用selective search生成候选区域(region proposal)
2.将候选区域输入到一个预训练的网络(fine-tuning)
3.每个类别训练一个SVM分类器,用regressor对候选框进行回归
缺点:
时间和内存消耗太大,训练SVM和回归的时候都需要用网络生成的特征作为输入
3.Fast R-CNN
4.Faster R-CNN

https://github.com/yhenon/keras-frcnn(deprecated)
https://github.com/softberries/keras-frcnn
https://github.com/small-yellow-duck/keras-frcnn
https://github.com/fizyr/keras-retinanet
vgg中,con3_64,表示卷积核为(3, 3),filters数目为64

SPP-net: spatial pyramid pooling ,空间金字塔池化层,放置在卷积层和全连接层之间,对特征图像进行压缩处理,避免了在进入卷积层之前要对图像进行截取(crop warp),卷积层对图像的尺寸没有限制,但全连接层对尺寸有限制。
bag of words: 词袋模型,常用于语言识别,句子是由多个关键词构成,通过关键词可以对句子进行表示。应用在图像识别中,整体图像可以由局部的图像组成。局部的图像组合在一起即为词袋,可以用于表示整体图像。
loss function
对两类anchors会打上正标签:(1)与实际(ground-truth)box的IoU(Intersection-over-Union)值最大,(2)与实际box的IoU值超过0.7
以第二个条件为依据可以满足大多数情况
如果IoU值低于0.3则为负标签
如果某个anchors即非正也非负,则不会作为训练对象
anchors
对于1000 x 600的图片,大概有20000(≈ 60 x 40 x 9)个anchors,9是3种纵横比,3种分辨率之积,60是1000/16,40是600/16,经过vgg后,图片会从(A,B,3)变为(A/16,B/16,512),详情见VGG-16
忽略掉跨过边界的anchors,每张图片还剩余6000个anchors,进过NMS(非最大抑制,阈值为0.7),剩余2000张候选区域(proposal regions)
本文介绍了目标检测领域的经典算法,包括YOLO、RCNN、Fast R-CNN、Faster R-CNN和Mask R-CNN,详细阐述了这些算法的工作原理、步骤及优缺点。同时,文章还探讨了空间金字塔池化(SPP)、词袋模型(BOW)等关键技术,并提供了相关开源项目链接。
1780

被折叠的 条评论
为什么被折叠?



