RetinaNet网络

最新推荐文章于 2024-08-11 09:35:58 发布

sfwufo

最新推荐文章于 2024-08-11 09:35:58 发布

阅读量2.1k

点赞数 1

CC 4.0 BY-SA版权

文章标签：网络计算机视觉人工智能

本文链接：https://blog.youkuaiyun.com/sfwufo/article/details/122963646

来源：2022年02月阅读文献《基于改进RetinaNet的跑道边灯亮度检测》http://www.opticsjournal.net/Articles/OJ8fa2b1a080c41792/Abstract

参考：目标检测算法 - RetinaNet - 知乎 (zhihu.com)

实例分割算法 - Mask-RCNN - 知乎 (zhihu.com)

摘要：为了解决机场跑道边灯亮度检测任务中小目标检测精度低、检测速度慢的问题，提出了一种基于改进 RetinaNet 的跑道边灯亮度检测方法。在 RetinaNet 的基础上，引入倒残差结构和深度可分离卷积，以提升网络的特征提取能力和检测速度。采用 K- means 聚类算法优化目标样本的锚点框尺寸，以提升网络的检测精度。实验结果表明，相比原始方法，本方法的性能有明显提升，平均检测精度达到 97. 2% ，检测速度达到 25. 9 frame/s

深度学习目标检测模型 RetinaNet 能提取图像中丰富的特征信息并自主完成特征学习，从而实现目标的识别和分类，具有较强的鲁棒性，被广泛应用于行人检测、交通标志识别和光学遥感图像检测等领域，并取得了良好的效果。
RetinaNet 作为通用目标检测网络，其锚点框尺寸不完全适用于跑道边灯灯光，导致网络的检测精度较低。
深层网络的参数多、模型大，无法满足低精度移动端或嵌入式设备的运行要求，难以部署到应用现场。
首先，建立跑道边灯灯光图像数据集，将合格与不合格的亮度灯光分别标注为 bright 类和 weak 类。
然后，依据跑道边灯灯光图像中的光斑尺寸，用 K- means 聚类算法获得最佳尺寸 anchor，并去除适用于大物体检测的 anchor （尺寸为 512×512 和 256×256 ），增加两个尺寸为 8×8 和 16×16 的 anchor，以更好地匹配光斑。在特征提取网络中引入深度可分离卷积模块，在不影响精度的前提下减少模型参数，提升其运行速度。
最后，通过数据增强方法扩充灯光图像样本，避免了训练过程中的过拟合情况，增强了网络的鲁棒性。

重要的文献：RetinaNet- Focal Loss for Dense Object Detection

该论文最大的贡献在于提出了Focal Loss用于解决类别不均衡问题，从而创造了RetinaNet（One Stage目标检测算法）这个精度超越经典Two Stage的Faster-RCNN的目标检测网络。

基于深度学习的目标检测算法有两类经典的结构：Two Stage 和 One Stage。

Two Stage：例如Faster-RCNN算法。第一级专注于proposal的提取，第二级对提取出的proposal进行分类和精确坐标回归。两级结构准确度较高，但因为第二级需要单独对每个proposal进行分类/回归，速度上就打了折扣。

One Stage：例如SSD，YOLO算法。此类算法摒弃了提取proposal的过程，只用一级就完成了识别/回归，虽然速度较快但准确率远远比不上两级结构。

生精度差异的主要原因：类别失衡（Class Imbalance）

One Stage方法在得到特征图后，会产生密集的目标候选区域，而这些大量的候选区域中只有很少一部分是真正的目标，这样就造成了机器学习中经典的训练样本正负不平衡的问题。它往往会造成最终算出的training loss为占绝对多数但包含信息量却很少的负样本所支配，少样正样本提供的关键信息却不能在一般所用的training loss中发挥正常作用，从而无法得出一个能对模型训练提供正确指导的loss（而Two Stage方法得到proposal后，其候选区域要远远小于One Stage产生的候选区域，因此不会产生严重的类别失衡问题）。常用的解决此问题的方法就是负样本挖掘，或其它更复杂的用于过滤负样本从而使正负样本数维持一定比率的样本取样方法。该论文中提出了Focal Loss来对最终的Loss进行校正。