RetinaNet网络

来源:2022年02月阅读文献《基于改进RetinaNet的跑道边灯亮度检测》http://www.opticsjournal.net/Articles/OJ8fa2b1a080c41792/Abstract

参考:目标检测算法 - RetinaNet - 知乎 (zhihu.com)

           实例分割算法 - Mask-RCNN - 知乎 (zhihu.com)

摘要: 为了解决机场跑道边灯亮度检测任务中小目标检测精度低、检测速度慢的问题,提出了一种基于改进 RetinaNet 的跑道边灯亮度检测方法。在 RetinaNet 的基础上,引入倒残差结构和深度可分离卷积,以提升网络的特 征提取能力和检测速度。采用 K- means 聚类算法优化目标样本的锚点框尺寸,以提升网络的检测精度。实验结果 表明,相比原始方法,本方法的性能有明显提升,平均检测精度达到 97. 2% ,检测速度达到 25. 9 frame/s
  • 深度学习目标检测模型 RetinaNet 能提取图像中丰富的特征信息并自主完成特征学习,从而实现目标的识别和分类,具有较强的鲁棒性,被广泛应用于行人检测、交通标志识别和光学遥感图像检测等领域 ,并取得了良好的效果 。
  • RetinaNet 作为通用目标检测网络,其锚点框尺寸不完全适用于跑道边灯灯光,导致网络的检测精度较低。
  • 深层网络的参数多、模型大,无法满足低精度移动端或嵌入式设备的运行要求,难以部署到应用现场。
  • 首先,建立跑道边灯灯光图像数据集,将合格与不合格的亮度灯光分别标注为 bright 类和 weak 类。
  • 然后,依据跑道边灯灯光图像中的光斑尺寸, 用 K- means 聚类算法获得最佳尺寸 anchor,并去除 适 用 于 大 物 体 检 测 的 anchor (尺 寸 为 512×512 和 256×256 ),增加两个尺 寸 为 8×8 和 16×16 的 anchor,以更好地匹配光斑。在特征提取网络中引入深度可分离卷积模块,在不影响精度的前提下减 少模型参数,提升其运行速度。
  • 最后,通过数据增强方法扩充灯光图像样本,避免了训练过程中的过 拟合情况,增强了网络的鲁棒性。
重要的文献:RetinaNet- Focal Loss for Dense Object Detection
该论文最大的贡献在于提出了Focal Loss用于解决类别不均衡问题,从而创造了RetinaNet(One Stage目标检测算法)这个精度超越经典Two Stage的Faster-RCNN的目标检测网络。

基于深度学习的目标检测算法有两类经典的结构:Two Stage 和 One Stage。

Two Stage:例如Faster-RCNN算法。第一级专注于proposal的提取,第二级对提取出的proposal进行分类和精确坐标回归。两级结构准确度较高,但因为第二级需要单独对每个proposal进行分类/回归,速度上就打了折扣。

One Stage:例如SSD,YOLO算法。此类算法摒弃了提取proposal的过程,只用一级就完成了识别/回归,虽然速度较快但准确率远远比不上两级结构。

生精度差异的主要原因:类别失衡(Class Imbalance)

One Stage方法在得到特征图后,会产生密集的目标候选区域,而这些大量的候选区域中只有很少一部分是真正的目标,这样就造成了机器学习中经典的训练样本正负不平衡的问题。它往往会造成最终算出的training loss为占绝对多数但包含信息量却很少的负样本所支配,少样正样本提供的关键信息却不能在一般所用的training loss中发挥正常作用,从而无法得出一个能对模型训练提供正确指导的loss(而Two Stage方法得到proposal后,其候选区域要远远小于One Stage产生的候选区域,因此不会产生严重的类别失衡问题)。常用的解决此问题的方法就是负样本挖掘,或其它更复杂的用于过滤负样本从而使正负样本数维持一定比率的样本取样方法。该论文中提出了Focal Loss来对最终的Loss进行校正。

 

### RetinaNet 网络架构及原理介绍 #### 1. 网络架构组成 RetinaNet 是一种单阶段目标检测网络,其核心由以下几个部分构成:ResNet、FPN 和 SubNet。 - **ResNet** 被用作基础的特征提取器,能够有效地捕获图像中的深层特征[^1]。 - **FPN(Feature Pyramid Network)** 则用于生成多尺度的特征图,使得模型能够在不同分辨率下检测目标,尤其增强了对小目标的检测能力[^4]。 - **SubNet** 包括分类子网和回归子网,分别负责预测目标类别和边界框位置。 #### 2. 特征金字塔网络(FPN) FPN 的引入解决了传统卷积神经网络在处理多尺度目标时存在的不足。通过自顶向下的路径以及横向连接机制,FPN 可以融合高层语义信息和低层空间细节信息,从而生成具有高分辨率和强表达力的特征图[^3]。 #### 3. 锚框设计与预测 RetinaNet 在 FPN 的每一层特征图上定义了一系列锚框(Anchor Boxes),这些锚框覆盖了不同的尺寸和宽高比,以便适应各种形状的目标对象。对于每一个锚框,分类子网会输出该锚框属于某一类别的概率;而回归子网则调整锚框的位置和大小以更好地匹配真实目标。 #### 4. Focal Loss 为了应对正负样本不平衡问题以及容易分类样本占据主导地位的情况,RetinaNet 引入了一种新的损失函数——Focal Loss。这种损失函数通过对简单样例降低权重的方式,让模型更加专注于难以区分的样本,进而显著提升了检测精度特别是小目标的识别效果。 ```python def focal_loss(prediction_tensor, target_tensor, alpha=0.25, gamma=2.0): r""" 计算焦点损失(Focal Loss),这是 RetinaNet 中的核心组件之一。 参数: prediction_tensor: 预测的概率分布张量 target_tensor: 实际标签张量 alpha: 权重因子,默认为 0.25 gamma: 调节因子,默认为 2.0 返回: 损失值 """ zeros = torch.zeros_like(prediction_tensor) pos_p_sub = torch.where(target_tensor > zeros, target_tensor - prediction_tensor, zeros) neg_p_sub = torch.where(target_tensor > zeros, zeros, prediction_tensor) per_entry_cross_ent = -alpha * (pos_p_sub ** gamma) * torch.log(torch.clamp(prediction_tensor, min=1e-8)) \ -(1-alpha)*(neg_p_sub **gamma)*torch.log(torch.clamp(1-prediction_tensor,min=1e-8)) return per_entry_cross_ent.mean() ``` 上述代码展示了如何计算焦损(Focal Loss)。此方法有助于解决极端类别不均衡的问题,并增强模型对困难样本的学习能力。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值