【目标检测】 YOLOv2总结

以下为笔记相关链接(推荐使用链接阅读)YOLOv2个人总结

以下为文章叙述部分大致内容:
01.YOlO-v2
📄论文题目
Yolo 9000:Better,Faster,Stronger
👨‍💻作者
Joseph Redmon:YOLO系列的主要作者
❓四个问题
❔要解决什么问题?
在YOLOv1的基础上解决小目标检测精度、定位信息错误及综合性能的提升(mAP与FPS的综合考虑)。
❔使用什么方法解决问题?

❔实际效果如何?

❔还存在什么问题?
依照YOLOv3的改进方向,YOLOv2在一下几个方面有待改进。
loss不同:作者v3替换了v2的softmax loss 变成logistic loss,而且每个ground truth只匹配一个先验框。
anchor bbox prior不同:v2作者用了5个anchor,一个折衷的选择,所以v3用了9个anchor,提高了IOU。
detection的策略不同:v2只有一个detection,v3一下变成了3个,分别是一个下采样的,feature map为1313,还有2个上采样的eltwise sum,feature map为2626,5252,也就是说v3的416版本已经用到了52的feature map,而v2把多尺度考虑到训练的data采样上,最后也只是用到了13的feature map,这应该是对小目标影响最大的地方。
backbone不同:这和上一点是有关系的,v2的darknet-19变成了v3的darknet-53,为啥呢?就是需要上采样啊,卷积层的数量自然就多了,另外作者还是用了一连串的3
3、11卷积,33的卷积增加channel,而11的卷积在于压缩33卷积后的特征表示,这波操作很具有实用性,一增一减,效果棒棒。
✨论文概述
🔸1.Abstract
YOLOv2能够检测超过9000个不同类别的目标(检测范围大幅度增加)。
提出了目标检测与分类联合训练的方法,利用该方法在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000。YOLOv2的联合训练允许YOLO9000预测没有标记检测数据的对象类的检测。
联合训练(YOLOv2中):简单来说就是多个不同训练集按照一定的规律进行输入到模型并且对模型进行训练。
🔹2.Introduction
使用对象分类的层次视图的方法,将不同是数据集组合到一起。
使用一种联合训练的方法,能够在检测与分类数据集上训练目标检测器:a. 通过标记的检测图像来学习精准的目标定位,b. 通过分类图像增加检测器的检测范围与鲁棒性。
🔸3.Better
Batch Normalization:批量归一化使得收敛的显着改善,同时消除了对其他形式的正则化的需求。通过在YOLO的所有卷积层上添加批处理归一化,可以在mAP方面获得2%以上的改进。批处理规范化还有助于规范化模型。通过批量归一化,可以消除模型中的缺失而不会过度拟合(是一个自适应的重新参数化的方法,试图克服神经网络层数加深导致模型难以训练)

High Resolution Classifier: 由224 * 224 -->> 448 * 448的输入图像。
Convolutional with Anchor Boxes:从YOLO中删除全连接层,使用anchor预测边界框。首先去除一个池化层(使得卷积网络能够输出更高的分辨率),将网络可处理的图像变为416大小(希望特征图中位置数量为奇数),这样更好的预测物体(奇数下,物体的中心一般在像素中心)。在YOLO中每个图像的预测边界框为98,在YOLOv2中预测的边界框超过1000。
Dimension Clusters(聚类):使用K值聚类(k=5时能有比较高的性价比)获得边界框的priors (prior 是我们所假设的参数本来的分布,而 posterior 则是在观察到训练数据之后得到的条件分布). d(box,centroid) = 1 − IOU(box,centroid)—>>>获得距离度量
Direct location prediction:

Fine-Grained Features:YOLO是在13*13的特征图上进行检测,而在YOLOv2中添加一个passthrough layer(穿透层)将26 *26分辨率时的特征传递下去。(穿透层通过将相邻要素堆叠到不同的通道而不是空间位置,将高分辨率要素与低分辨率要素连接在一起,类似ResNET的映射)

Multi-Scale training:不是固定输入图像的大小,而是每隔几次迭代更改一次网络,网络每10批次随机选择新的图像尺寸
🔹4.Faster
Daekent-19:DarkNet-19有19个卷积层,并且处理一幅图像只需要55.8亿次运算,但在ImageNe上达到了72.9%的TOP-1准确率和91.2%的TOP-5准确率。

🔸5.Stronger
WordTree(有向图结构): 可以使用WordTree以合理的方式将多个数据集组合在一起

🔹6.Conclusion
YOLO9000是一个实时框架,通过联合优化检测和分类,可检测9000多个对象类别。我们使用WordTree合并来自不同来源的数据,并使用我们的联合优化技术在ImageNet和CoCo上同时进行训练。YOLO9000是朝着缩小检测和分类之间的数据集大小差距迈出的重要一步,即是使得检测技术能够应用于更多的物体上。
YOLO9000在学习新的目标类别时,受到最初训练集的影响,即是对最初训练集中所包含的目标类别有倾向性,对最初训练集中从未出现过的目标类别的学习效果不佳。
👀补充

附录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值