一、目标检测的定义
给定一张图片,用矩形框框出所有感兴趣物体同时预测物体类别
二、目标检测的分类
基于深度学习的目标检测方法主要包括两大类,一类是基于区域建议网络(Region Proposal Network, RPN)的两阶段检测网络,其首先生成区域候选框,然后对每个区域候选框的特征进行预测,这类方法的主要研究有R-CNN系列网络、SPP网络和R-FCN网络等。另一类是端到端的单阶段检测网络,它可以实现一次性对整张图像中目标的坐标定位与分类,一般这类方法的检测速度要快于前者,这类方法的主要研究有YOLO和SSD等。
而最新的目标检测算法出现了以Transformers为代表的算法,如DETR (2020)和Deformable DETR (2021)等。
两阶段目标检测网络Two-Stage Detectors
以faster RCNN为例,网络主要分为两部分。第一部分为主干特征提取网络,采用ResNet50/101网络提取图像特征并得到特征图。第二部分为区域建议网络和RoI Align层,由区域建议网络对特征图进行卷积运算得到候选框并对候选框进行首次校正,然后候选框再截取特征图得到局部特征图。因为局部特征图的长宽是不固定的,不利于模型的学习,因此需要通过RoI Align将局部特征图归一化到相同大小上。
单阶段目标检测网络One-Stage Detectors
单阶段算法直接通过密集预测产生检测框,相比于两阶段算法,模型结构简单、速度快,易于在设备上部署。早期由