RetinaNet网络结构详解

本文探讨了Focal Loss在密集目标检测中的关键作用,重点比较了一阶段的YOLOv3(通过3x3卷积和P7层优化资源)与两阶段的RetinaNet(多尺度和比例锚点)。讨论了正负样本匹配策略的改进,以及YOLOv3在效率上的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原论文名称:Focal Loss for Dense Object Detection(聚焦损失与密集目标检测)

one-stage网络(yolo SSD)首次超过two-stage

 与之前的FPN网络结构的不同之处:

1.没有通过C2生成P2,因为P2会占用更多的计算资源

2.通过3*3卷积得到p6,FPN是通过maxpool

3.多一个P7

在不同的特征层上所使用不同的scale(尺度)和ratios(比例)

RetinaNet在每一个预测特征层使用了3个scale和3个ratios,一共9组anchors

 正负样本匹配:

1.Iou>=0.5正样本

2.Iou<0.4负样本

3.大于0.4小于0.5 舍弃

 

RetinaNet是一种用于目标检测深度学习模型。它是由Facebook AI Research团队在2017年提出的,旨在解决目标检测中存在的困难问题。 RetinaNet采用了一种特殊的网络结构,称为特征金字塔网络(Feature Pyramid Network,简称FPN),用于从图像中提取不同尺度的特征。这样可以使模型能够对不同大小和尺度的目标进行准确的检测。 与其他目标检测模型不同的是,RetinaNet采用了一种称为“焦点损失”(Focal Loss)的新的损失函数。传统的交叉熵损失函数在目标检测中常常面临正负样本不平衡的问题,即负样本远多于正样本。而焦点损失函数通过引入一个可调整的参数,有效地缓解了这个问题。它专注于解决难以分类的样本,即具有高置信度分数但分类错误的样本,从而提高了模型的检测精度。 RetinaNet还使用了一种称为“双向框架”(BiFPN)的多级特征融合方法。在目标检测任务中,不同尺寸的目标需要不同层级的特征进行检测。BiFPN通过在不同层级之间进行信息传递和特征融合,使得模型可以同时利用高级语义信息和低级细节特征,从而提高了目标检测的准确性。 总的来说,RetinaNet是一种基于特征金字塔网络目标检测模型,通过引入焦点损失函数和双向框架,有效地解决了目标检测中的困难问题,提高了检测精度。这种模型的诞生为目标检测任务的进一步发展和应用提供了有力的支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值