yolo--v3论文精读及核心问题整理

本文详细介绍了YOLOv3的性能提升,包括新网络结构带来的准确性增强、多尺度预测和多标签分类方法。Darknet-53作为新网络结构,兼顾了速度和准确性。YOLOv3在速度上超越SSD且与RetinaNet竞争中表现均衡,但需关注对小目标检测的改进。

摘要
更新的YOLO:作者提到对YOLO(You Only Look Once)系统进行了一系列的小设计改进,这些改进旨在提升系统的性能。YOLOv3是YOLO系列的第三个版本,它在保持前一个版本优点的基础上,通过细节上的优化实现了更好的性能。

新训练的网络:YOLOv3包含了一个新的网络结构,这个网络在训练后表现出了更高的准确性。尽管新网络的规模比之前的版本稍大,但它仍然保持了较快的处理速度。

性能数据:在320×320的输入尺寸下,YOLOv3能够在22毫秒内完成检测,达到了28.2 mAP(mean Average Precision)。这一性能与SSD(Single Shot MultiBox Detector)相当,但速度是SSD的三倍。mAP是目标检测领域常用的性能评价指标,它衡量的是模型在不同IoU(Intersection over Union,交并比)阈值下的平均精度。

与其他检测方法的比较:作者比较了YOLOv3与RetinaNet和其他检测方法在Titan X GPU上的性能。YOLOv3在51毫秒内达到了57.9 AP50,而RetinaNet在198毫秒内达到了57.5 AP50。AP50是指在0.5 IoU阈值下的准确率,这是一个传统的检测性能度量标准。YOLOv3在速度上显著优于RetinaNet,同时保持了相似的准确率。

2.1. Bounding Box Prediction”
锚框(Anchor Boxes)的使用:

YOLOv3继续采用YOLO9000的方法,使用锚框(Anchor Boxes)来预测边界框。锚框是一种预定义的框,用于匹配不同尺寸的目标。
网络预测每个边界框的4个坐标(tx, ty, tw, th),这些坐标表示边界框相对于其所在单元格(cell)的位置和尺寸。
坐标预测:

坐标预测包括边界框的中心点坐标(tx, ty)以及宽度和高度(tw, th)的偏移量。这些偏移量是基于锚框的尺寸和位置计算的。
如果单元格相对于图像左上角的偏移是(cx, cy),并且锚框的先验宽度和高度是(pw, ph),那么预测的坐

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值