(五)比赛中的CV算法(下2)YOLO算法和one-stage检测器

YOLO(You Only Look Once)是一种端到端的深度学习目标检测模型,它摒弃了两阶段检测器中的区域提案网络(RPN),直接通过卷积层预测边界框坐标和类别概率。网络结构简洁,仅包含卷积层和池化层,减少了计算复杂度,实现了快速检测。每个格点负责预测多个预定义框的坐标和置信度,以及对应类别的概率。尽管YOLO在小物体检测和定位精度上存在不足,但其高效和实时性为后续one-stage模型的发展奠定了基础。

此时此刻恰如彼时彼刻,一位大佬在阅读了Faster R-CNN 中PRN设计的思想后直接拍桌怒起:既然RPN能直接根据深度特征提取出可能存在物体的ROI,生成提议区域,那我干脆就用网络直接回归出bbox的坐标不就得了,一步到位岂不是美滋滋?(两阶段的方法相当于先通过RPN大致定位bbox,再在后续的bbox回归中获取更精准的定位框,one-stage的方法直接在特征图上进行bbox的回归)这就是YOLO的设计思想。YOLO是you only look once的缩写,“只看一眼”也昭示着这是一个一阶段的端到端网络,不需要中间的区域提议阶段!

  • YOLO

    作为one-stage模型的开山之作,yolo直接砍掉了RPN,通过连续的几个卷积层直接回归出bbox坐标和对应的分类。首先一起看看yolo的pipeline:

     相比之前介绍的R-CNN家族,是不是感觉一下清爽了不少?从设计结构来说,整个算法的运行就只有3步:

  1. 缩放图片至ConvNet的输入大小

  2. 卷卷卷...

  3. 得到每个框的分类和置信度

  4. 运行NMS去除重复的目标框

有些同学肯定会疑惑,凭什么则这样就能得到回归坐标和分类呢?请牢记一点:网络只不过是会在训练过程中会学会一个映射!那么关键就在于我们应该如何提供“监督”来让网络学习这个映射。不过,还是要称赞一下如此简单明了的设计简直满足了所有美好的想像,如此的Unified、elegant!

请看YOLO的设计思想:

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值