车道线再出发!SinLane:孪生Transformer如何破局(上交&浙大)

编辑 | 自动驾驶Daily

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心车道线检测技术交流群

本文只做学术分享,如有侵权,联系删文

自动驾驶之心+自动驾驶之薪+具身智能之心知识星球 | 双十一活动限时7折

ab17fb1d307e3013078e5927b5b7ec3f.png







写在前面 & 笔者的个人理解

车道检测是自动驾驶系统中一项重要但具有挑战性的任务。基于Visual Transformer的发展,早期基于Transformer的车道检测研究在某些场景下取得了有前景的结果。然而,对于复杂的道路条件,如不均匀的光照强度和繁忙的交通,这些方法的性能仍然有限,甚至可能比同期基于CNN的方法更差。在本文中,我们提出了一种新的基于Transformer的端到端网络,称为SinLane,该网络获得了关注稀疏但有意义的位置的注意力权重,并提高了复杂环境中车道检测的准确性。SinLane由一种新颖的孪生视觉变换器结构和一种称为金字塔特征集成(PFI)的新型特征金字塔网络(FPN)结构组成。我们利用所提出的PFI来更好地整合全局语义和更精细的尺度特征,并促进Transformer的优化。此外,所设计的Siamese视觉变换器与多级PFI相结合,用于细化PFI输出的多尺度车道线特征。在三个车道检测基准数据集上进行的广泛实验表明,我们的SinLane以高精度和高效率实现了最先进的结果。具体来说,与目前性能最佳的基于Transformer的CULane车道检测方法相比,我们的SinLane将精度提高了3%以上。

4936f94baf085ba23fe651362979dbfd.png

总结来说,本文的主要贡献如下:

  • 提出了一种新的FPN模块,金字塔特征集成(PFI),以完全集成全局语义和更精细的尺度特征。

  • 设计了一个Siamese视觉变换器来从PFI中提炼多尺度车道线特征。

  • 在三个基准数据集上取得了最先进的结果,与CULane上最著名的Transformer方法相比,准确率提高了3%以上。

相关工作回顾

早期的车道检测工作依赖于手工制作的特征,导致特征捕获有限,因此对于复杂条件下的车道检测任务无效。

为了应对复杂的环境,深度学习(DL)方法被引入到车道检测任务中。基于分割的方法首先应用于车道检测,其检测输出基于每像素的分割图。与传统方法相比,基于CNN的方法可以捕获更丰富的视觉特征和空间结构信息,因此基于DL的方法优于传统的检测方法。然而,基于每像素的分割方法计算成本高,实时性有限,并且难以学习车道线的细长特征。

为了解决这些问题,LaneNet引入了一种分支的多任务架构,将车道检测任务转化为实例分割问题。与之前的方法相比,这种方法对道路状况的变化更具鲁棒性,但更耗时。RESA被提出通过移动切片特征图来聚合空间信息,这可以获得良好的实时结果,但在复杂的道路条件下仍然失败。此外,上述大多数方法的输出车道线可能不连续。

为了以更高的效率获得更连续的车道线,在最近的研究中,基于曲线的方法将车道检测任务视为多项式回归问题,并利用参数曲线来拟合车道线。这些方法在很大程度上取决于曲线的参数(表示车道线像素的坐标,a、b、c和d是曲线的参数)。PloyLaneNet首次提出了一种直接输出参数的端到端深度多项式回归方法。为了提高稳定性和效率,BézierLaneNet提出了一种参数化的Bézier曲线来模拟车道线的几何形状。然而,即使效率很高,受全局信息学习能力的限制,这些基于曲线的方法在大型数据集上的准确性也不能令人满意,特别是在复杂的道路条件下。

Transformer引入计算机视觉领域后,在模型推理速度和全局信息获取方面取得了令人瞩目的成果。DETR在目标检测方面取得了令人满意的结果,优于一些基于CNN的方法。但是,在车道检测领域,基于Transformer的方法仍然难以产生令人满意的结果。基于DETR的方法LSTR推理速度快,但精度相对较低,特别是在一些复杂的道路环境中。与预训练和局部先验的LSTR相比,PriorLane提高了预测的准确性。然而,目前基于Transformer的方法和基于CNN的方法在准确性上仍存在差距。

在检测任务中,底层富含几何信息,但缺乏抽象的语义信息,而深层则相反。对于车道检测任务,车道线独特的细长形状和复杂的驾驶场景对本地和全局信息的集成提出了很高的要求。FPN提出了一种自上而下的特征金字塔架构,用于合并低级和高级特征。PANet中提出了一种自下而上的架构,用于更好地从低级到高级特征的聚合。Kong重新制定了FPN结构,并应用全局注意力和局部重构将低级表示与高级语义特征融合在一起。Nas-FPN和BiFPN提出了可学习的融合策略,从多尺度上提高了特征融合的效果。然而,所有这些方法都忽略了数据集的尺度分布,无法在复杂的自动驾驶场景中融合全局和局部信息。

方法详解

结构设计

0a56bc33b67d4d781e09deba0be2b4d5.png

SinLane网络的总体架构如图2所示。由于车道线具有明显的结构特征,因此可以用沿y轴等距采样的一系列关键点来表示,这些关键点可以表示为:

969d8835e3d7747cd467a6bddb603d82.png

虽然车道检测任务可以被视为分割任务,但通过车道线的关键点表示,它可以被转换为与对象检测任务相似的序列预测任务。受DETR[3]的启发,我们提出了一种基于端到端变压器的方法SinLane,用于生成车道预测,而无需复杂的后处理步骤,如非最大抑制(NMS)[31]。我们网络的主要结构可分为四个部分,骨干网(ResNet或DLA34)、颈部、头部和训练目标。

Pyramid Feature Integration

我们开发了PFI来整合全局语义信息和更精细的特征。图3显示了PFI的详细结构。

4f378cee4aa0328d1c4d6dd04ba5b66b.png 94a2c0071540df7f629ea8f99824f969.png 93dad13f1829e8b4d99f746a2ca0a596.png

在使用融合因子来平衡相邻高层和低层的特征后,我们采用了一种集成结构来进一步融合它们。对于基于FPN的信息集成,有一些已知的方法,如PANet和NAS-FPN。当应用于车道检测任务时,由于图像中的车道线通常又长又细,因此这些方法很难平衡全局信息和更精细的尺度特征。

因此,我们开发了一种新的集成结构来集成全局语义信息和更精细的尺度特征。首先,我们将多尺度特征(已被融合因子平衡)重塑为相同的尺度。请注意,特征形状是一个可调整的参数,取决于精度和效率的平衡。接下来,我们对重塑后的特征进行平均,可以表示为:

6d6b61fe85a4bff3c908c19f9f2d9266.png

与之前的PANet等工作相比,我们的PFI具有两个优势:

(1)轻量级,即插即用,可以通过并行计算轻松实现,并应用于其他任务和网络;
(2)它适用于严重依赖全局和局部信息融合的任务,如车道检测任务。

Siamese Visual Transformer

我们提出了Siamese Visual Transformer来从多尺度特征图中提取丰富的信息。图4显示了详细的Siamese Visual Transformer结构。主结构由四个具有共享参数的暹罗视觉转换器组成。

18aab3aa5c635bc51f8daa898e2109df.png

由于车道线细长且具有独特的结构特征,我们使用对象序列(图2中的e0、…、e3)来表示它们,这有助于降低计算成本,并且易于对Transformer进行优化。对象序列可以表示为:

ef0581545643bc6a1df2105e428f1c8c.png

通过使用GT监督对象序列的生成,我们可以强制输出序列逐一对应图像中的实际车道,从而实现车道线的检测。

我们将PFI的输入特征图划分为block,以减轻Transformer计算的负担。然后将三维补丁展平为二维序列,并添加位置嵌入。与传统的Transformer编码器不同,我们利用Siamese结构使Transformer能够通过共享参数学习更丰富的多尺度信息。具体来说,我们在输入特征图的序列和上层Transformer的输出序列(或预生成的序列e0)之间应用注意力,而不是原始的自注意力。这个过程可以表示为:

752c441f6b1bb00764262624a3913690.png

Training and Inference Details

d425f476b1ed37da82f3d19f1adfb5e4.png 5b4aeef86c5612561015d3117c00b463.png c470dc2b6ae46315bbf0af61376a9a55.png

实验结果

39a10ddbf87356705963f1db4df08a9d.png 56f2e7d2ee159f31e4fb1ed609ecee8b.png 03d5113f63ea1e7f2d471d5155f9574f.png ce6f64a18bda61cfc52749b3ba8f8d01.png 8e2e4da003c05af31cb99cb4b79aa633.png 72d1d1c25266535a4f1a624dc021fb31.png

结论

在本文中,我们提出了一种新的基于变压器的端到端网络,称为SinLane,用于车道线检测。SinLane由一种新颖的暹罗视觉变换器结构和一种称为金字塔特征集成(PFI)的新型FPN结构组成。我们证明,我们提出的PFI可以有效地整合全局语义和更精细的尺度特征,促进Transformer的优化。此外,所设计的Siamese Visual Transformer优化了我们的PFI输出的多尺度车道线特征。我们在三个基准数据集CULane、Tusimple和LLAMAS上评估了我们提出的方法。实验结果表明,我们提出的SinLane取得了最先进的结果,提高了复杂环境中车道线检测的准确性。具体来说,与已知的基于Transformer的CULane数据集车道线检测方法相比,它将准确率提高了3%以上。

参考

[1] SinLane: Siamese Visual Transformer via Pyramid Feature Integration for Lane Detection

『自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

80567f42ff1fddd447b113c571e0e89d.png

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

045a9f4475ec737104b3144e6ea2b90d.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

0a09b5201f1d033f6773fcb1698e8309.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

363e2e169d1a3d517fe082c9a4ddef71.jpeg

④【自动驾驶之心】全平台矩阵

c72f526538094264ccc8472d3559d4e3.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值