（五）比赛中的CV算法（下2）YOLO算法和one-stage检测器

原创

已于 2022-02-11 23:49:58 修改 · 1.5k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #深度学习 #人工智能 #机器学习 #计算机视觉

于 2021-10-31 13:33:47 首次发布

YOLO（You Only Look Once）是一种端到端的深度学习目标检测模型，它摒弃了两阶段检测器中的区域提案网络（RPN），直接通过卷积层预测边界框坐标和类别概率。网络结构简洁，仅包含卷积层和池化层，减少了计算复杂度，实现了快速检测。每个格点负责预测多个预定义框的坐标和置信度，以及对应类别的概率。尽管YOLO在小物体检测和定位精度上存在不足，但其高效和实时性为后续one-stage模型的发展奠定了基础。

此时此刻恰如彼时彼刻，一位大佬在阅读了Faster R-CNN 中PRN设计的思想后直接拍桌怒起：既然RPN能直接根据深度特征提取出可能存在物体的ROI，生成提议区域，那我干脆就用网络直接回归出bbox的坐标不就得了，一步到位岂不是美滋滋？（两阶段的方法相当于先通过RPN大致定位bbox，再在后续的bbox回归中获取更精准的定位框，one-stage的方法直接在特征图上进行bbox的回归）这就是YOLO的设计思想。YOLO是you only look once的缩写，“只看一眼”也昭示着这是一个一阶段的端到端网络，不需要中间的区域提议阶段！

YOLO

作为one-stage模型的开山之作，yolo直接砍掉了RPN，通过连续的几个卷积层直接回归出bbox坐标和对应的分类。首先一起看看yolo的pipeline：

相比之前介绍的R-CNN家族，是不是感觉一下清爽了不少？从设计结构来说，整个算法的运行就只有3步：

缩放图片至ConvNet的输入大小
卷卷卷...
得到每个框的分类和置信度
运行NMS去除重复的目标框

有些同学肯定会疑惑，凭什么则这样就能得到回归坐标和分类呢？请牢记一点：网络只不过是会在训练过程中会学会一个映射！那么关键就在于我们应该如何提供“监督”来让网络学习这个映射。不过，还是要称赞一下如此简单明了的设计简直满足了所有美好的想像，如此的Unified、elegant！

请看YOLO的设计思想：

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。