图像识别技术与应用课后总结(19)

YOLO系列-V4

尽管作者有所变化,但YOLOv4的核心精髓未变,在计算机视觉(CV)领域地位突出,具备速度和准确性的优势。

V4贡献

训练亲民:单GPU就能达到很好的训练效果,降低了训练的硬件门槛。

方法改进:从数据层面(如数据增强)和网络设计层面进行了优化。

实验情况:进行了大量消融实验,且全部在单GPU上完成,减少了对高端设备的依赖。

Bag of freebies(BOF)

数据增强:通过调整图像的亮度、对比度等多种方式扩充数据集。

网络正则化:采用Dropout、Dropblock等方法防止过拟合。

损失函数设计:针对类别不平衡问题进行优化 。

Mosaic数据增强

参考CutMix方法,将四张图像拼接成一张用于训练。

表格展示了不同数据增强方法在ImageNet和Pascal VOC数据集上的分类(Cls)、定位(Loc)和检测(Det)指标表现,体现出Mosaic(对应CutMix相关数据)能提升模型性能。

其他数据增强技术

Random Erase(随机擦除):用随机值或训练集平均像素值替换图像区域,增加数据多样性。

Hide and Seek(捉迷藏):按概率随机隐藏图像中的一些补丁,帮助模型学习更鲁棒的特征。

Self - adversarial - training(SAT,自对抗训练):通过向图像引入噪音点,改变模型预测结果,增加训练难度,让模型学习更具鲁棒性的特征表示。

Label Smoothing

目的:针对神经网络容易出现过拟合(过于自信)的问题,Label Smoothing用于使模型的预测不那么绝对,减少过拟合风险。

操作示例:原本标签为独热编码形式,如(0, 1),通过一个平滑系数(如0.1)进行调整,得到新的标签[0.05, 0.95],使模型在训练时不会对标签过于笃定。

效果分析:从图可以看到,使用Label Smoothing后,同一类别的数据(簇内)更加紧密,不同类别的数据(簇间)更加分离,说明模型对各类别的区分度更好,特征表示更加有效 。

IOU损失

定义:IOU(Intersection over Union,交并比)损失常表示为1 - IOU,用于衡量目标检测中预测框和真实框的重叠程度

 问题:当预测框和真实框没有相交时,IOU为0,无法进行梯度计算;而且不同的框位置关系可能有相同的IOU值,难以反映实际情况差异。

GIOU损失​​​​​​

公式:

 作用:在预测框和真实框不重叠的情况下,能引导预测框朝着真实框的方向移动。

局限:在某些特殊情况下,GIOU损失值可能无法很好地区分不同的框位置关系

DIOU损失

公式:

分子计算的是预测框与真实框中心点的欧式距离d,分母是能覆盖预测框与真实框的最小BOX的对角线长度c。

优势:直接优化预测框和真实框的距离,相比IOU损失和GIOU损失,优化速度更快,并且解决了GIOU损失存在的一些问题 。

DIOU - NMS

背景与改进:在目标检测中,过去常用非极大值抑制(NMS)来决定是否删除某个检测框,而YOLOv4改用DIOU - NMS。它不仅考虑了IOU值,还纳入了两个框中心点之间的距离信息。

公式与应用:公式根据IOU和DIOU相关计算结果来决定框的去留,其中M代表高置信度候选框,Bi是遍历的各个框,通过判断它们与M的重合情况,更合理地筛选检测框。

SOFT - NMS

特点:相较于传统NMS直接剔除框的做法,SOFT - NMS更加“柔和”,它通过更改检测框的分数,而不是直接删除,来优化检测结果。

Bag of specials(BOS)

定义与作用:这是一组增加些许推断代价,但能提高模型精度的方法。

技术内容:涉及在网络细节部分引入多种改进,包括注意力机制、网络细节设计、特征金字塔等,综合了许多优秀论文中的方法。

SPPNet(Spatial Pyramid Pooling)

在YOLOv3中的应用背景:在YOLOv3中,为适应不同输入大小,训练时需对输入进行调整。

原理:SPPNet通过最大池化操作,使得不同大小的输入最终能得到一致的特征表示,以满足后续网络处理的需求 。

CSPNet(Cross Stage Partial Network)

结构特点:将每个block的特征图按channel维度拆分成两部分。一部分经过正常的网络处理流程,另一部分则直接与该block的输出进行拼接(concat)。

优势:这种结构可以在减少计算量的同时,保持模型的精度。

CBAM(Convolutional Block Attention Module)

本质:是一种注意力机制模块,在各类论文中较为常见。它包含通道注意力(Channel Attention)和空间注意力(Spatial Attention)两个子模块,能够帮助模型更聚焦于重要的特征。

在YOLOv4中的应用:YOLOv4采用了其中的空间注意力机制(SAM),说明注意力机制在计算机视觉(CV)领域,如同在自然语言处理(NLP)和语音识别领域一样,得到了广泛应用。

YOLOv4中的Spatial attention module(空间注意力模块)

特点:相比于一些复杂的注意力模块,YOLOv4中的空间注意力模块结构更简单,运行速度相对更快。通过最大池化(Max-Pooling)、平均池化(Average-Pooling)等操作来生成空间注意力权重,增强模型对空间特征的关注。

PAN(Path Aggregation Network)

PAN的背景:从特征金字塔网络(FPN)讲起,FPN采用自顶向下的模式,将高层语义特征传递下来,但信息传递路径相对单一。

PAN的改进思路:针对FPN的不足,PAN引入了自底向上的信息传递路径,使得底层的位置细节信息更容易传递到顶部,实现了双向的特征融合,增强了不同层次特征之间的交互。

在YOLOv4中的实现:YOLOv4中对PAN进行了修改,不是采用简单的加法来融合特征,而是使用拼接(concatenation)的方式,这样可以保留更多的特征信息,有助于提升目标检测的性能。

Mish激活函数

特点:相比ReLU激活函数,Mish更加平滑,不会像ReLU那样将所有负输入直接置零,给模型学习提供了更多信息,更符合实际情况。

公式:f(α)=·tanh(ln(1+ew)),但它的计算量比ReLU大,不过能带来一定的性能提升

消除网格敏感性(eliminate grid sensitivity)

问题:在目标检测的坐标回归中,预测值在0 - 1之间,当目标位于网格边界时,需要很大的数值才能表示,存在表示困难的问题。

解决方法:在激活函数前加上一个大于1的系数,通过公式调整预测值,缓解网格边界表示的敏感性问题

 整体网络架构:展示了YOLOv4的整体网络结构,包含CSPDarknet53骨干网络、空间金字塔池化(SPP)模块、路径聚合网络(PANet)以及Yolo Head检测头。输入图像经过一系列卷积、池化、特征融合等操作,最终由检测头输出目标检测结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值