此时此刻恰如彼时彼刻,一位大佬在阅读了Faster R-CNN 中PRN设计的思想后直接拍桌怒起:既然RPN能直接根据深度特征提取出可能存在物体的ROI,生成提议区域,那我干脆就用网络直接回归出bbox的坐标不就得了,一步到位岂不是美滋滋?(两阶段的方法相当于先通过RPN大致定位bbox,再在后续的bbox回归中获取更精准的定位框,one-stage的方法直接在特征图上进行bbox的回归)这就是YOLO的设计思想。YOLO是you only look once的缩写,“只看一眼”也昭示着这是一个一阶段的端到端网络,不需要中间的区域提议阶段!
-
YOLO
作为one-stage模型的开山之作,yolo直接砍掉了RPN,通过连续的几个卷积层直接回归出bbox坐标和对应的分类。首先一起看看yolo的pipeline:

相比之前介绍的R-CNN家族,是不是感觉一下清爽了不少?从设计结构来说,整个算法的运行就只有3步:
-
缩放图片至ConvNet的输入大小
-
卷卷卷...
-
得到每个框的分类和置信度
-
运行NMS去除重复的目标框
有些同学肯定会疑惑,凭什么则这样就能得到回归坐标和分类呢?请牢记一点:网络只不过是会在训练过程中会学会一个映射!那么关键就在于我们应该如何提供“监督”来让网络学习这个映射。不过,还是要称赞一下如此简单明了的设计简直满足了所有美好的想像,如此的Unified、elegant!
请看YOLO的设计思想:

YOLO(You Only Look Once)是一种端到端的深度学习目标检测模型,它摒弃了两阶段检测器中的区域提案网络(RPN),直接通过卷积层预测边界框坐标和类别概率。网络结构简洁,仅包含卷积层和池化层,减少了计算复杂度,实现了快速检测。每个格点负责预测多个预定义框的坐标和置信度,以及对应类别的概率。尽管YOLO在小物体检测和定位精度上存在不足,但其高效和实时性为后续one-stage模型的发展奠定了基础。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



