2019“智见AI” Spring Camp知识点简要汇总-目标检测方向

博客聚焦目标检测方向,指出当前检测存在网络不友好、正负样本失衡等问题。介绍了RetinaNet和Mask R-CNN等代表性成果,分析one-stage和two-stage检测器区别。还提出可改进点,如针对检测任务设计骨干网络、加速two-stage网络等,同时探讨了anchor-based和anchor-free算法的优缺点。

目标检测方向

  1. 大佬们都提到的当前检测遇到的问题
    1. 当前网络对检测不太友好,预训练一般在ImageNet等用来分类的数据库上
    2. 正负样本的失衡
    3. learning everything(anchor,NMS)
    4. anchor-based 和 anchor-free
    5. 检测的细节(小尺度物体和物体堆等)
  2. 俞刚《Beyond RetinaNet and Mask R-CNN》
    参考:https://www.megvii.com/newscenter/e2da1146-7209-44b1-aac5-1f4aab6d091a
    1. 目标检测本质上同时在做定位和分类两个任务。
    2. 目标检测的目的在于又快又准,快在于实时性,准体现在定位准和分类准。
    3. 当前主要的检测的细节仍需完善,如小物体检测、物体堆识别等。
    4. RetinaNet 和 Mask R-CNN 是 2017 年出现的两个非常有代表性的成果, 两者分别是 one-stage 和 two-stage 的,共同奠定了目标检测框架的基调。
      RetinaNet:https://arxiv.org/abs/1708.02002
      《Mask R-CNN》:https://arxiv.org/abs/1703.06870
    5. one-stage 和 two-stage 检测器之间的本质区别在于检出率(recall)与定位(localization)之间的权衡(tradeoff)。
    6. 当前可改进的点:
      1. 当前主干网络多基于ImageNet分类任务来设计,所以可以考虑针对检测任务设计骨干网络,朝着兼得感受野和空间分辨率的方向而努力。
      2. 对于two-stage网络,当前主要的目标是加速,可以通过减小骨干网络,把head变为轻量级等方式。
      3. 检测中物体尺寸差异较大,如何在尺寸变化与推断速度之间实现一个很好的权衡,结合了anchor-based和anchor-free的方法,
      4. 物体检测的batchsize都比较小,MegDet
      5. 真实场景中 crowd 情况非常多,引入了一个新数据集——CrowdHuman。
      6. 新增-pretraining
        在这里插入图片描述
        预训练可以节省训练时间,且提出了名为Objects365的数据库用来预训练效果会比ImageNet更好,更适合于检测问题。
        在这里插入图片描述

目标检测算法总结博客:https://www.cnblogs.com/guoyaohua/p/8994246.html

  1. 张士峰《物体检测算法的对比探索以及展望》
    1. 物体检测的分类
      在这里插入图片描述
    2. RefineDet演变
      anchor-based里one-stage和two-stage各有优缺点,two stage的优势在于它有两次的特征,分类和检测,所以精度较高,但one-stage的速度较高
      基于此,就提出来RefineDet,结合两种模式的优缺点,ARM部分负责用来得到bbox(类似Faster R-CNN中的ROI或proposal)和去除一些负样本,ODM采用ARM产生的refined anchors作为输入,进一步改善回归和预测多类标签。
      在这里插入图片描述 后发现浅层网络的ODM模块,浅层更适合用来分类,深层部分更适合用来回归框架结构,因此提出SRN
      在这里插入图片描述
    3. anchor-based 算法缺点
      1. 与锚点相关的超参(scale、aspect ratio、IOU Threshold)必须被小心选择,否则会较明显的影响最终预测效果
      2. 预置的锚点大小、比例在检测差异较大物体时不够灵活,且在迁移数据后需要重新设计
      3. 较高召回率,多个锚点box被紧密排列,而绝大多数锚点都被标定为negative,这样会导致正负样本比例失衡
    4. anchor-free的算法:基于keypioint和基于segmentation
      但anchor-free也存在自身的问题,如如何配对keypoint等
      在这里插入图片描述
  2. 程明明《开放环境下的自适应视觉感知》
    1. 富尺度空间深度神经网络通用架构,层内分层分组递进残差连接。
      在这里插入图片描述
    2. 通用视觉基元属性感知(基元属性:显著性、边缘、对比度等一系列图像中的固有属性,该属性不具有针对某种特定任务的性质)
      显著性物体检测(A Simple Pooling-Based Design for Real-Time Salient Object Detection)
      在这里插入图片描述在这里插入图片描述Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection(RGBD显著性物体检测)
      在这里插入图片描述
    3. 关键机器学习算法到多种行业应用
      在这里插入图片描述
    4. 总结
      在这里插入图片描述
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值