目标检测与MMDetection
目标检测的基本范式
什么是目标检测
目标检测是在给定的图片中用矩形框框出所有感兴趣物体同时预测物体类别的过程。
- 图像分类和目标检测的异同

目标检测在生活中有非常广泛的应用,例如人脸识别、智慧城市、自动驾驶等。也可作为其他下游视觉任务的基础,例如OCR、姿态识别等等。
发展

早期是传统方法DPM,在进入深度学习阶段之后就有了更多算法。
- 根据算法阶段来划分。 首先出现的是两阶段算法,以R-CNN和Faster R-CNN为代表;此后是单阶段算法,以YOLO和SSD为代表。
- 根据是否使用Transformer。 2020年左右,涌现了诸多基于Transformer的方法,例如DETR、ViT等等。
- 如今基于CNN和TR的方法日趋成熟,学术界开始在探讨Open Vocabulary Detection,希望目标检测算法能够不局限在有标注的数据集中。
目标检测技术的演进

基础知识
框

是横平竖直的框,如果是旋转的是旋转目标检测这一小类。
交并比IoU
如果存在多个框,那么就需要考虑框之间的关系。最常用的方法就是交并比。

IoU是介于[0,1]的数值。后续也有很多新的IoU方式,例如CIoU、DIoU等等
目标检测的基本思路
滑窗



目标检测是识别图像中的物体并给出边界框的过程,涉及R-CNN、YOLO、SSD等算法。文章介绍了从滑窗方法到基于CNN和Transformer的演进,以及IoU在处理框间关系中的作用。此外,还讨论了现代框架如FocalLoss和FCOS,以及未来对OpenVocabularyDetection的研究方向。
最低0.47元/天 解锁文章
1834

被折叠的 条评论
为什么被折叠?



