Faster R-CNN改进篇(一): ION ● HyperNet ● MS CNN

本文深入探讨Faster R-CNN的改进方法,包括ION的多尺度特征融合与上下文信息提取,HyperNet的多尺度特征提取和Region Proposal Generation,以及MS CNN的统一多尺度深度网络。这些改进旨在提高目标检测的精度和效率,尤其关注小目标检测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 源起于Faster

       深度学习于目标检测的里程碑成果,来自于这篇论文:

       Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems. 2015.

       也可以参考:【论文翻译

       虽然该文章前面已经讲过,但只给出了很小的篇幅,并没有作为独立的一篇展开,这里我们详细展开并讨论其 网络结构、应用领域 及 后续改进。

       前面文章参考:【目标检测-RCNN系列


二. 网络结构

       Faster RCNN的网络结构图如下:

        

       用的还是之前的图,其实对于这张图只需要记住一点:RPN网络,这是本文的核心贡献,RPN通过深度网络实现了 Proposal 功能,相较于之前的 SS(Selective Search)方法 和 EdgeBoxes 方法有很大提升。

       RPN 我们来看原论文的图:

        

       这张图虽然经典,但描述的并不太清楚,有些人可能看不明白,有几个关键点需要说明:

1)RPN 连接在 Conv5 之后

     参考网络结构图,先理解 Conv5,Conv5是前面经过4次conv和pooling。

     对于原图800*600的输入,Feature尺寸 变为[800/16,600/16] = [50,37.5],

     Conv5的输出维度为 256,Feature维度 为 256。

2)Anchor 生成与排序

     特征图采用滑窗方式遍历,每个特征像素点 对应K个 Anchor(即不同的Scale和Size),上述input对应的Anchor Count为 50*38*k(9) = 17100。

     对应如此多的 Anchor,需要通过置信度剔除大多数Candidate,通常保留100-300个就足够了。

     训练过程中通过IOU进行正负样本的选择,测试过程中置信度较低的被丢弃。

3)RPN 输出

     如上图所示,输出分为两部分,2K Scores + 4K Reg,基于 256d 的 intermediate 层,通过两个网络,同时进行 分类 + 回归,Scores提供了作为前景、背景目标的概率(2位),Reg提供了4个坐标值,标识Box位置。

     参考如下Caffe结构图,先通过3*3 的卷积核进行处理,然后1*1的卷积核进行降维,在 k=9 的情况下,每个像素对应生成 2*k = 18个 Scores 参数4*k = 36个 Reg参数

     整体上 1*1 卷积生成的特征是    分类W*H*18   &   回归W*H*36,其中 ReShape 是方便 Softmax 用的,可以忽略掉。

     Proposal层 根据 Softmax 输出(丢弃背景),结合对应 Anchor和Stride进行映射,将Box映射到原图,作为下一步 ROI Pooling 的输入。

        

4)RPN 结合方式

     RPN 网络相对独立于卷积层,原文中通过 ImageNet 数据集进行预训练。

     微调时,分别固定 RPN参数 和 卷积网络参数,对另外的网络部分进行微调,也就是说,虽然 Faster实现了端到端的处理,但并未实现全局的

好的,这里有 100 个以上目标检测模型的推荐: 1. R-CNN (Regions with CNN features) 2. Fast R-CNN 3. Faster R-CNN 4. Mask R-CNN 5. YOLO (You Only Look Once) 6. SSD (Single Shot Detector) 7. RetinaNet 8. DSSD (Deconvolutional Single Shot Detector) 9. YOLOv2 (You Only Look Once version 2) 10. YOLOv3 (You Only Look Once version 3) 11. YOLOv4 (You Only Look Once version 4) 12. R-FCN (Region-based Fully Convolutional Network) 13. FPN (Feature Pyramid Network) 14. G-CNN (Grid-based CNN) 15. MHYPER (Multi-Hyperplane CNN) 16. HyperNet (Hyperdimensional Network) 17. F-RCNN (Faster R-CNN with Feature Pyramid Network) 18. ION (Integral Objectness Network) 19. NO-CNN (Non-Overlapping CNN) 20. MNC (MultiBox Neural Network for Object Detection) 21. MR-CNN (Multi-Region CNN) 22. L-CNN (Localization CNN) 23. RON (Reverse Connection with Objectness) 24. ML-CNN (Multiple Localization CNN) 25. STDN (Spatial Transformer Detector Network) 26. GAN-based object detection models (e.g. ODIN, Boundary-Seeking GAN) 27. 3D object detection models (e.g. PointRCNN, VoteNet) 28. Graph-based object detection models (e.g. Graph RCNN, GIN) 29. Transformers for object detection (e.g. DETR, ViT-OD) 30. Meta-learning for object detection (e.g. MetaAnchor, Meta R-CNN) 31. Hierarchical models for object detection (e.g. H-RCNN, HD-CNN) 32. Adversarial training for object detection (e.g. AdvEnt, ATOD) 33. Semi-supervised object detection (e.g. SSL-detection, S3D) 34. Weakly-supervised object detection (e.g. W-TALC, WSDDN) 35. Few-shot object detection (e.g. FSOD, F-RCNN) 36. Zero-shot object detection (e.g. ZSD-Net, ZS-OD) 37. Transfer learning for object detection (e.g. TLD, TLOD) 38. Multi-task learning for object detection (e.g. MTDNN, M2Det) 39. Knowledge distillation for object detection (e.g. KD-RCNN, DistillObjDet) 40. Domain adaptation for object detection (e.g. DANN, AdaDet) 41. Active learning for object detection (e.g. AL-RCNN, ALOD) 42. Online learning for object detection (e.g. OL-RCNN, OLEO) 43. Ensemble models for object detection (e.g. EfficientDet, E-RCNN) 44. Neural architecture search for object detection (e.g
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值