KTH团队PRIX系统实现纯摄像头智能驾驶

这项由瑞典皇家理工学院(KTH Royal Institute of Technology)的Maciej K. Wozniak团队与沃尔沃卡车旗下的斯堪尼亚公司合作完成的研究发表于2025年7月,论文标题为"PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving"。感兴趣的读者可以通过论文编号arXiv:2507.17596v2访问完整研究内容,也可以在研究团队的项目主页PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving找到更多资料。

当我们谈到自动驾驶汽车时,大多数人首先想到的可能是那些车顶装着旋转"帽子"的测试车辆——那个"帽子"就是激光雷达。这种昂贵的设备能够精确测量周围物体的距离和形状,就像给汽车装上了一双"超级眼睛"。然而,这样的设备成本高昂,一套激光雷达系统的价格往往相当于一辆普通汽车,这让大多数消费者望而却步。

不过,瑞典皇家理工学院的研究团队却选择了一条截然不同的道路。他们开发的PRIX系统就像是一个技艺精湛的人类司机,仅仅依靠"眼睛"——也就是普通的摄像头——就能安全地驾驶汽车。这种方法不仅大大降低了成本,还证明了一个令人兴奋的可能性:也许我们并不需要那些昂贵的"超级眼睛",普通的摄像头配合聪明的算法就足够了。

研究团队面临的挑战就像是要求一个从未见过立体电影的人,仅仅通过看平面照片就准确判断出物体的距离和深度。传统的自动驾驶系统通常会先把摄像头拍摄的画面转换成一种叫做"鸟瞰图"的俯视角度图像,这个过程就像是把一张平面地图转换成立体的地形模型,需要大量的计算资源。而PRIX系统的创新之处在于,它能够直接从原始的摄像头画面中提取有用信息,跳过了这个耗时的转换过程。

更令人印象深刻的是,PRIX不仅在性能上达到了业界顶尖水平,在速度和效率方面更是远超竞争对手。在各项测试中,PRIX的表现就像是一位既稳重又敏捷的老司机,不仅开得安全,反应速度也比其他系统快得多。在关键的NavSim基准测试中,PRIX以57帧每秒的处理速度运行,虽然比最快的系统慢了3帧,但在安全性和准确性方面的得分却高出一大截。这就好比是在一场既比速度又比技巧的驾驶比赛中,PRIX虽然不是跑得最快的,但综合表现最为出色。

一、PRIX的核心技术:像人类一样"看"和"想"

要理解PRIX系统的工作原理,我们可以把它比作一个学习开车的新手司机的成长过程。当一个人刚开始学车时,他需要同时处理大量信息:观察道路状况、识别交通标志、判断其他车辆的位置和速度、规划行驶路线等等。PRIX系统的工作方式与此非常相似,但它的"学习"过程更加系统化和高效。

PRIX的视觉系统基于一种叫做ResNet的深度学习架构,这就像是给计算机装上了一双经过专业训练的"眼睛"。但仅仅有好的"眼睛"还不够,PRIX的独特之处在于它配备了一个叫做"上下文感知重新校准变换器"(Context-aware Recalibration Transformer,简称CaRT)的创新模块。

要理解CaRT的作用,我们可以想象这样一个场景:当你开车经过一个复杂的十字路口时,你的眼睛会自动聚焦在最重要的信息上——比如红绿灯的状态、正在过马路的行人、从侧面驶来的车辆等等。同时,你的大脑会综合处理这些信息,形成对整个场景的理解。CaRT模块的工作原理与此类似,它能够智能地决定图像中的哪些部分最重要,并将这些重要信息与整体场景的理解结合起来。

传统的计算机视觉系统往往会为每个不同的抽象层次创建专门的处理模块,就像是雇用不同的专家来处理不同类型的信息。但PRIX团队发现,使用一个共享的智能模块来处理所有层次的信息反而更加高效。这就好比是培养一个全能型的司机,而不是让多个专业司机轮流开车。这种设计不仅减少了系统的复杂性,还提高了处

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值