ⰳ于ResNet的自动驾驶车辆轨迹预测模型
Abstract
自动驾驶车辆(AVs)有望彻底改变未来的交通方式。然而,在实现L5级自动驾驶之前,仍有许多挑战需要解决。其中之一是准确预测周围自动驾驶汽车的交通智能体(如汽车、行人和摩托车)的运动轨迹。本文使用ResNet来预测自动驾驶车辆的轨迹,该模型能够捕捉不同维度的特征以实现更准确的预测。通过输入原始图像,模型分别输出三条轨迹及其对应的置信度,即每条轨迹都有其独立的置信度。实验结果表明,我们的方法优于其他深度学习方法。ResNet‐34模型的损失函数值低于VGG‐16模型和VGG‐19模型。
索引术语 :自动驾驶车辆,自动驾驶,深度学习,ResNet模型
一、引言
智能交通系统有助于提升驾驶安全、理解交通目标和降低交通事故,从而改变未来人们的出行方式。近年来,由于人工智能(AI)技术的发展,深度学习方法已广泛应用于自动驾驶行业。自动驾驶是一种无需人类驾驶,而是通过计算机视觉和人工智能算法控制汽车的运行。它有望有效减少因人为失误导致的交通事故。然而,自动驾驶还需要投入大量成本和技术支持才能实际推广。
早期,Bojarski等人将深度学习方法应用于汽车转向角度预测。通过使用卷积神经网络(CNN),取得了良好效果。Bojarski的模型虽然不具备较低的计算成本,但却能在每秒提供30次的推断速度(FPS)。得益于此,该模型能够实时处理来自9通道摄像头的图像。
深度学习在自动驾驶中有广泛应用,其中卷积神经网络常用于自动驾驶中不同任务的建模。LeNet 是最早使用深度学习技术的卷积神经网络之一。它主要用于手写数字、车牌识别、面部识别和物体检测[1]。
在本文中,我们采用 ResNet[2] 模型作为基础框架来预测轨迹[3]。实验结果表明,该模型的损失值小于 VGG16 模型低 6.95,小于 VGG 模型低 5.13。结果证明,我们的方法在自动驾驶轨迹预测任务中具有更强的性能。
具体而言,我们提出了以下几点贡献:
- 我们使用ResNet来预测涉及不同智能体的轨迹。
- 我们展示了该模型的整体架构。
- 我们展示了实验结果和分析。
本文的结果组织如下。第二部分综述了关于自动驾驶轨迹预测和深度学习模型的相关工作。第三部分详细介绍了模型架构及其实现原理。第四部分展示了我们模型的实验性能与其他深度学习方法的对比。最后,第五部分总结了本文的工作。
二、相关工作
自动驾驶轨迹预测
轨迹预测是自动驾驶汽车感知环境的关键环节之一。在应用分类方法、检测方法和跟踪方法后,我们可以获得车辆周围物体的类型、位置和速度信息。同时,可以预测这些物体的未来运动和轨迹。通常使用概率模型或基于学习的模型来进行轨迹预测。
概率模型利用概率分布来估计自动驾驶汽车可能行驶的不同未来轨迹的可能性,通常通过贝叶斯滤波方法,如卡尔曼滤波模型和粒子滤波模型。基于学习的模型利用机器学习技术进行预测,可通过监督学习优化参数,相比概率模型更具灵活性和准确性。
此外,人们还尝试使用如车辆轨迹之间的相对信息等辅助数据[5]。Barlaamir等人[6]比较了概率模型和基于学习的模型。Ulah等人[7]实现了车辆轨迹的时间序列预测,但对该文中出现的问题提出了自己的见解。De[8] 利用图卷积网络的时空车辆位置数据来预测车辆的位置。他们使用注意力机制来捕捉空间中的重要信息。
本文基于 GOFUNSTORY.AI 的开源项目 PDC 官方文档 v0.5.10,该项目已在 GitHub 上公开,包含 star 和 fork 数据。该模型成功捕捉到了动态场景中的关键行为特征。同时,他们比较了该模型与其他方法的性能。苏珊火[9]提出了一种智能交通系统(ITS),该系统利用雷达传感器的功能来收集车辆行驶数据。李[10]提出了一种新方法,利用自动驾驶轨迹数据有效预测短期交通状况。张彻[11]在短期预测中提出并比较了三种轨迹预测方法及其改进方法。
神经网络
神经网络(NN)的概念研究始于20世纪40年代。随后,它经历了三次发展浪潮。在20世纪60年代,有人提出了基于人脑神经元的感知机结构。在20世纪80年代,反向传播算法推动了多层神经网络的发展。2006年之后,深度学习方法的研究迎来了爆发式增长[12]。
Hinton等人于2006年提出了深度置信网络(DBN)。该模型由多个受限玻尔兹曼机(RBM)组成。此后,两种主流的深度学习方法得到广泛应用:1)卷积神经网络(CNN),用于捕捉二维空间维度的特征;2)循环神经网络(RNN),用于处理时间序列维度的特征。
卷积神经网络、循环神经网络(RNN)及其衍生模型可以从原始传感器数据中进行学习,优于传统手工设计特征的方法。一种典型的模型属于生成模型,即学习训练数据与其对应标签之间的映射关系,然后利用学到的映射生成新的标签数据以还原训练数据的分布。生成对抗网络(GAN)[13]是当前的研究热点,该模型结合了深度学习与生成模型,由Goodfellow等人于2014年提出。该模型包含生成器和判别器两个部分。生成器学习真实数据分布并生成伪造样本;判别器是一个二分类器,其目的是区分输入数据来自真实数据还是生成器生成的假数据。生成器和判别器均包含损失函数,可使用卷积神经网络[14, 15]、RNN 或其他网络结构。近年来,生成对抗网络已在图像、文本和语音等多个领域得到广泛应用。
III. Methodology
在本部分中,我们详细介绍基于ResNet的模型。
ResNet[2] 可被认为是近年来计算机视觉领域最具影响力的模型之一。ResNet解决了梯度消失和梯度爆炸问题,使得深层模型(数百层)得以在实践中可行,并且即使在网络非常深的情况下仍保持良好的性能。
一般通用逼近理论指出,只要有足够的宽度,单层前馈网络就能逼近任意复杂函数。然而,随着网络加深,可能出现性能下降现象。因此,模型设计中引入更深的网络需要更多的层次。
自从AlexNet以来,卷积神经网络的结构变得越来越深。AlexNet只有5层,而后继的VGG网络和GoogleNet(Inception-v1)分别有19层和22层。
ResNet通过在网络中引入残差连接解决了这一问题。通过这种方式,网络可以在加深的同时不损失性能。残差网络的基本结构如图1所示。我们可以看到其中一条蓝色跳跃连接。
引入残差连接的目的是在训练过程中保持深层网络的更高性能。对于深层网络,可以将其视为由多个基本模块组成。对于每个基本模块,其输入和输出均为张量。在右侧的残差部分中,跳跃连接将输入 X 直接传递到输出端。因此,输出结果为 F(X)=W X+X。如果 W X=0,则 F(X)=X,即恒等映射。由此可得残差 W X=F(X)-X,其中 W X 是网络的学习目标。ResNet的设计目标是使残差结果接近于0。
在本文中,我们采用ResNet34模型从输入图像中学习更深层次的特征表示。相比其他深度学习模型,该模型实现了更高的准确性。
IV. Experiments
实验数据与设置
在本部分中,进行特征提取,然后基于ResNet34预测自动驾驶车辆轨迹。
本质上,自动驾驶轨迹预测是一个多模态预测问题。其过程如下:将原始图像输入网络,然后网络为每个智能体生成3条轨迹,每条轨迹都有其对应的置信度。每条轨迹包含50个时间步,相当于5秒(以10Hz采样)。因此,每个智能体共输出3条轨迹总计150个坐标点。输入数据如图2所示,网络结构如图3所示。
实验结果与分析
用于衡量预测值与真实值之间差异的函数称为损失函数,例如平方损失函数和对数似然损失函数。验证误差是训练数据上的左端损失。网络的训练目标是最小化验证误差。因此,在最小化验证误差的同时应避免过拟合,从而降低模型复杂度,这通常属于结果验证范畴。同样,验证误差和结果验证的优化函数统称为目标函数。
对数似然损失(如交叉熵损失和负对数似然损失)在概率预测任务中表现优异。它们常用于多分类任务、神经网络以及期望最大化算法中的变量推断。它可以作为用于多类别分类的概率输出。对数损失通过对类别概率取负对数来评估预测准确性,从而提高预测精度。降低损失值本质上意味着提高模型在目标任务上的准确性。
我们计算在多模态预测中真实轨迹的对数似然。假设真实位置序列为
$$
y_{1:T} = (y_1, y_2, …, y_T)
$$
由于网络生成多种可能的预测路径,其中一条用 $ L $ 表示,其对应概率值记为 $ p(L) $,则整体对数似然可表示为:
$$
\log p(y_{1:T}) = \log \sum_L p(L) \cdot p(y_{1:T} | L)
$$
对数损失函数的具体形式如下:
$$
\mathcal{L} = -\log \sum_{i=1}^{K} w_i \cdot \exp\left(-\frac{1}{2}(y_{1:T} - \hat{y} {1:T}^{(i)})^\top \Sigma_i^{-1} (y {1:T} - \hat{y}_{1:T}^{(i)})\right)
$$
其中 $ K=3 $ 表示预测的轨迹数量,$ w_i $ 为第 $ i $ 条轨迹的置信权重,$ \hat{y}_{1:T}^{(i)} $ 为其预测轨迹,$ \Sigma_i $ 为协方差矩阵。
损失值是一个标量数值,我们用其作为衡量预测准确性的指标。该值越小,预测越准确。实验结果如表1所示。VGG16和VGG19作为对比模型。结果显示,ResNet34的得分最低,比VGG16低6.95,比VGG19低5.13。
| 模型 | Loss |
|---|---|
| VGG16 | 30.57 |
| VGG19 | 28.75 |
| ResNet34 | 23.62 |
表1 不同模型在自动驾驶轨迹预测任务上的实验结果
V. Conclusions
本文提出了一种用于自动驾驶轨迹预测的深度学习模型。我们提出了一种基于ResNet的轨迹预测方法,并使用损失函数作为评价指标,比较了VGG16、VGG19和ResNet34的性能。结果表明,我们提出的模型性能优于其他模型,在预测精度上有显著提升。
该模型通过引入残差连接有效缓解了深层网络中的梯度问题,能够在保持高精度的同时构建更深的网络结构。此外,模型直接从原始图像输入中端到端地学习多模态轨迹输出,并为每条轨迹分配置信度,增强了预测的可靠性与实用性。
未来工作将探索融合时序信息的改进版本,例如结合Transformer或LSTM模块以进一步提升长期轨迹预测能力,并在更大规模的真实道路场景数据集上进行验证。

1453

被折叠的 条评论
为什么被折叠?



