对于YOLO V4的学习和介绍

YOLOV4在YOLOv3基础上引入了CSPDarknet53、SPP和PAN等结构,提升了目标检测性能。CSP结构通过分组和融合增强学习能力,SPP解决多尺度问题,PAN则实现上下层信息融合。这些创新使得YOLOV4网络更复杂但更高效。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

YOLO V4

网络结构

在论文的3,4章中介绍了YOLO V4的具体结构:

  • Backbone:CSPDarknet53
  • Neck:SPP,PAN
  • HEAD:YOLOv3

Yolo V4网络结构

CSPDarknet53

相较于YOLOv3,YOLOv4在Darknet53中融入了CSP结构,优点是可以增强CNN的学习能力,移除计算瓶颈,减少显存的使用。

CSP结构

CSP结构的思想是对于输入的特征层,通过两个11的卷积层划分为两部分part 1和part 2。在part 2后通过一系列的block,然后再通过11的卷积层(transition),接着将两个part的信息在通道方向进行Concat拼接,最后再通过1*1的卷积层进一步融合(图中最底层的transition)。

SPP

Spatial Pyramid Pooling(SPP)将输入的特征层依次通过一个池化核大小为55,99,13*13的最大池化下采样层,最后输出的特征层大小和输入的特征层大小包括shape和channel都是相同的,然后将三个模块的输出以及原输入在通道方向进行Concat拼接,这样能够在一定程度上解决目标多尺度问题。

SPP结构

PAN

Path Aggregation Network(PAN) 的结构其实就是在FPN的基础上增加了从底到顶的信息融合。

PAN结构

如上图所示,(a)部分为backbone+FPN模块,将高层的语义信息往低层融合;(b)部分则与FPN相反,将低层的语义信息往高层融合;两部分结合就是PAN。

需要注意的是,如下图所示,(a)为原始论文中的融合方式(相加),而(b)为YOLO V4的融合方式(Concat)将两个特征层在深度方向拼接。

两种融合方式

下图便是YOLO V4网络的一个示例图

示例


由于YOLO V4网络的结构较复杂,且其中包含了不少模块如CSPDarknet53等,因此其网络结构细节及其相关优化策略仍在学习中,将会对其进行进一步解析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值