【自动驾驶】SYGNET:基于SVD-YOLO的幽灵网络,用于实时驾驶场景解析学习笔记

SYGNET:基于SVD-YOLO的幽灵网络,用于实时驾驶场景解析

一、摘要

本文提出SYGNet加强复杂路况下自动驾驶的场景解析能力。

SYGNet包括特征提取组件和SVD-YOLO GhostNet组件。在SVD-YOLO GhostNet组件中,图像数据通过SVD分解,得到空间和环境特征更强的数据。YOLOv3用于获取未来地图,然后转换为GhostNet,用于实现实时场景解析。

SVD-YOLO GhostNet 组件结合了奇异值分解 (SVD)、YOLO和 GhostNet。

在特征提取组件中,我们提出了一种基于VoxelNet的点云特征和图像特征提取算法。

本文使用KITTI数据集进行实验,结果表明,SYGNet更健壮,可以进一步提高实时驾驶场景解析的准确性。

二、介绍

自动驾驶技术中,场景解析是基础核心部分,通过各种传感器用于获取车辆本身和周围环境的信息,包括车辆、行人、交通标志、障碍物。

实现自动启动技术需要几个必要的要素,但最重要的是海量的成像数据,可以覆盖所有复杂的路况信息。第二个最重要的方面是使用鲁棒而准确的算法,它可以准确地检测复杂的轮廓信息和动态目标。

自动驾驶的使用已经实现多年,但在很多情况下表现出两个缺点:

(1)高速驾驶的使用准确性差。自动驾驶对高速目标的故障率更高。

(2) 在近距离交通拥堵的情况下,自动驾驶无法判断前方复杂的路况。

即使上述条件不同,但它们都有一个共同点,可以看作是算法的不准确性。因此,提高场景解析精度变得必要。

为了解决上述问题,我们提出了SYGNet来提高场景解析的准确性。

SYGNet基于SVD和YOLO算法,特征提取算法将使用K-means检测图像的更多字符,对图像特征进行两次分类,并在特征提取过程完成后,结合GhostNet完成更准确的场景解析。

本文主要贡献:

(1)该文提出一种新型自动驾驶识别模型SYGNet,引入特征提取组件,并将SVD-YOLO和Ghostnet作为后续组件。SYGNet提高了驾驶场景解析的准确性。

(2)SYGNet在KITTI数据集上的识别精度,损失值,训练和测试条件以及定性数据方面产生了有希望的结果。

三、SYGNET

SYGNet由两个组件组成:特征提取组件和SVD-YOLO GhostNet组件。

(1)第一个组件用于提取重要的感知场景特征。

(2)第二个组件负责使用模型和训练参数来获得高精度的感知识别结果。

图描述了 SYGNet 中建议的特征提取的架构概述。

3.1特征提取组件

特征提取学习包括两个分支:LiDAR 流和相机流,分别提取点云特征和图像特征。

对于激光雷达分支,假设一个三维物体包含N个点,该物体的点云数据为(xi, yi, zi, ri),其中(xi, yi, zi)表示第i个点的笛卡尔乘积。坐标 ri是对应于该点的反射值。与VoxelNet [16]类似,我们将原始点云划分为相等的体素网格,然后使用随机采样点的空间坐标和相对偏移量作为每个体素的表示。

第 j 体素格网中点的相对偏移是每个点与其质心的偏移,第 j 体素的质心${\left\{v_{x}^{j}, v_{y}^{j}, v_{z}^{j}\right\}}$

,格式为${v_{x}^{j}=\frac{\sum_{i=1}^{M} x_{i}^{j}}{M}, v_{y}^{j}=\frac{\sum_{i=1}^{M} y_{i}^{j}}{M}, v_{z}^{j}=\frac{\sum_{i=1}^{M} z_{i}^{j}}{M}}$

其中 M 是第 j 体素中的点云数。尽管此表示可以捕获点云的全局空间信息,但它忽略了每个体素中点的局部结构信息。为了捕获局部结构信息,本文设计了局部定向特征,其计算公式如下:${d^{j}=\frac{\sum_{i=1}^{M} \arctan \left(\frac{y_{i}^{j}-v_{y}^{j}}{x_{i}^{j}-v_{x}^{j}}\right)}{M}}$

第 j 体素网格中第 i 个点的最终表示可以重写为:

${V_{i n}=\left\{x_{i}^{j}, y_{i}^{j}, z_{i}^{j}, r_{i}^{j}, x_{i}^{j}-v_{x}^{j}, y_{i}^{j}-v_{y}^{j}, z_{i}^{j}-v_{z}^{j}, d^{j}\right\}}$

接下来,将新的特征表示提供给特征学习组件(体素特征提取器)中的体素特征提取器。

本文中描述的特征提取器由VoxelNet提出的体素特征编码层(VFE)组成。VoxelNet设计的VFE层的灵感来自PointNet。VFE 层由大量堆叠全连接层 (FCN) 组成。

本文通过FCN将上述设计的体素特征编码Vin转换为特征空间。通过映射操作,可以聚合每个体素格网的内部点的特征,对体素内部的表面形状信息进行编码。

这里,FCN由线性层、批量归一化(BN)层和ReLU层组成,当得到逐点特征表示时,使用逐个元素最大化(逐元素MaxPooling)来获得局部聚合特征。最后,为了强化点级特征,将FCN层输出的点级特征拼接,得到最终的点级组合特征。本文设计的体素特征提取器由两个 VFE 图层组成。

针对相机分支,设计了类似于ResNet的二维卷积神经网络,提取点云数据对应的点级特征,可以捕获更深的图像纹理特征,实现更好的模态融合。

然后两个流的结果将在特征融合阶段合并,其中有一个注意力融合层来处理组合后的数据。之后,它将在 3D 框估计阶段转换为区域提案网络 (RPN)。最后,将生成具有提取特征的未来地图。

3.2SVD-YOLO GhostNet 组件

这样,我们可以得到矩阵${A A^{T}}$的 m 特征值和相应的 m 特征向量 u。所有特征向量都被拉伸成一个 m × m 矩阵 U,这是我们 SVD 公式中的 U 矩阵。通常,我们将 U 中的每个特征向量称为 A 的左奇异向量。

掩码初始化为 0,conf_mask初始化为 1。

在 YOLOv2 中,细粒度特征通过直通层添加。

在YOLOv3中,从前两层获得的特征图被上采样两次,之前获得的特征图与上采样后得到的特征图连接。

完成 SVD-YOLO 算法的操作后,我们在组件末尾连接一个 GhostNet。GhostNet 是即插即用组件,可将原始模型转换为更紧凑的模型,同时保持可比的性能。此外,在效率和准确性方面也有一些改进。

四、实验和结果

4.1数据集

在实验部分,我们使用KITTI数据集进行训练和预测。本实验基于包含不同车辆和行人的7400个KITTI数据集图像,检测道路图像中的车辆和行人。每个图像最多包含 15 辆汽车和 30 名行人,具有不同程度的遮挡和截断。KITTI数据集中对象检测数据中的“汽车”和“行车”两类数据被选为训练神经网络的数据集。

总共有7400张图像,按照4:1的比例分为训练集和测试集。迭代次数为 100000,批大小为 64。

4.2消融实验

本文采用消融实验对自动驾驶精度进行验证和分析。在 SVD-YOLO GhostNet 组件中,我们需要决定在这个组件的开头使用哪个模型组件。因此,我们进行了消融实验,以比较YOLOv3,RCNN,SVDYOLOv2,SVD-RCNN和SVD-YOLOv3的性能。图2说明了SVD-YOLOv3算法在整个测试过程中具有最佳的性能。

4.3定量评估

通过比较表2中三种不同场景模式(汽车、人类和边缘模式)下的不同方法,可以发现,SYGNet在可靠性方面具有良好的性能,验证了同一数据集下的可靠性。

图显示了不同模型在四种不同场景模式(汽车、人、道路和全模式)下精度随训练时间的增加而变化的实验。x 轴表示训练时间单位,y 轴表示精度值。

4.4定性评估

图显示了 KITTI 数据集的定性结果。不同的颜色标记识别的不同类别的物体。我们可以看到,我们的感知识别效果很好,对不同类型物体的边缘有很好的识别处理。

五、结论和未来工作

本文研究了自动驾驶场景解析技术,分析了神经网络训练时间的一些固有问题,并提出了SYGNet。在特征提取组件中,我们提出了一种基于VoxelNet的点云特征和图像特征提取算法。在SVD-YOLO GhostNet组件中,SVD分解图像数据,利用YOLOv3获取未来地图,然后转换为GhostNet,对提高精度有积极作用。最后,实验结果表明,SYGNet能够有效、显著地提高自动驾驶在交通拥堵或复杂路况下的场景解析和识别能力,从而使自动驾驶技术更加安全可靠。未来,我们将专注于可视变压器的再利用和融合,并与DeepBillboard相结合,从而大大提高自动驾驶技术的精度。

文章链接:10.1109/ICIP46576.2022.9897534

代码:https://github.com/WangHewei16/SYGNetfor-Real-time-Driving-Scene-Parsing.

引用:Wang H, Zhu B, Li Y, et al. SYGNet: A SVD-YOLO based GhostNet for Real-time Driving Scene Parsing[C]//2022 IEEE International Conference on Image Processing (ICIP). IEEE, 2022: 2701-2705.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值