
端到端自动驾驶
文章平均质量分 94
端到端自动驾驶是一种通过深度学习模型直接从传感器数据(如摄像头图像)输出驾驶决策(如方向盘角度或轨迹)的技术,省略了传统感知、规划、控制等模块。早期方法多采用模仿学习,近年发展出多模态输入、多任务训练、语言大模型辅助解释等趋势。代表性工作包括Pluto、UniAD、EMMA等。
机械心
人工智能,自动驾驶,端到端,机器学习,深度学习
展开
-
一段式端到端自动驾驶:UniAD:Planning-oriented Autonomous Driving
现代自动驾驶系统通常由一系列按顺序执行的模块任务构成,例如感知、预测和规划。为了完成多种任务并实现高级别的智能化,当前的方法要么为每个任务部署独立模型,要么采用带有多个任务头的多任务学习范式。然而,这些方法可能面临误差累积或任务协调不足的问题。因此,论文认为,一个理想的自动驾驶框架应围绕最终目标——即自车轨迹规划进行设计与优化。基于这一理念,重新审视了感知与预测中的关键组成部分,并对任务进行优先级排序,使它们都服务于规划。原创 2025-04-02 22:33:05 · 220 阅读 · 0 评论 -
端到端自动驾驶VLA模型:技术解析与模型设计
目前大语言模型较为成熟,因此无论是VLM或者VLA模型都是以大语言模型为基础的。MLLMs 拥有两大优势:一是训练数据来自大规模互联网,拥有广泛的“世界知识”;二是具备强大的推理能力(如 CoT chain-of-thought),这是现有驾驶模型难以具备的。EMMA 基于多模态大语言模型构建,能够直接将原始摄像头传感器数据映射为多种驾驶相关输出,包括规划轨迹、感知目标以及道路图结构等。原创 2025-03-26 15:09:47 · 1310 阅读 · 0 评论 -
深度学习视觉BEV 3D目标检测算法综述
随着自动驾驶、机器人和智能交通的发展,基于视觉的 BEV(Bird’s Eye View,鸟瞰视角)3D 目标检测 成为一个重要的研究方向。相比于 LiDAR 方案,纯视觉 BEV 方法更具成本优势,并且在感知、检测和地图构建等方面有着巨大的应用潜力。尽管当前的 BEV 视觉方法取得了一定进展,但仍然面临诸多挑战。原创 2025-03-18 18:57:52 · 1485 阅读 · 0 评论 -
两段式端到端自动驾驶:PLUTO: Pushing the Limit of Imitation Learning-based Planning for Autonomous Driving
自动驾驶系统的核心在于其运动规划器(motion planner):该模块负责在复杂、多变的交通环境中,制定一条既安全又高效的驾驶轨迹。近年来,基于学习的运动规划器取得了显著进展,通过模仿人类轨迹端到端学习规划策略,在实验中表现出良好的性能。但基于模仿学习(Imitation Learning, IL)的方法在实际部署中仍面临泛化性差、安全性不足、可解释性弱等挑战。原创 2025-03-26 11:02:18 · 619 阅读 · 0 评论 -
端到端自动驾驶LLM:Driving with LLMs: Fusing Object-Level VectorModality for Explainable Autonomous Driving
大型语言模型(LLMs)在自动驾驶领域展现出在泛化能力和可解释性方面的巨大潜力。由于图像/视频等模态不利于结构化推理和语言对齐,论文将矢量化的数值模态(感知结果)与预训练LLM融合,构建LLM-Driver模型,从而提升对驾驶情境的理解能力。论文提出了一种将对象级矢量模态与大语言模型融合的新方法,用于构建解释性自动驾驶系统。设计了一个矢量 → LLM 输入接口,能够将结构化场景感知信息(车辆、行人、路线、自车等)编码为 LLM 可处理的语言语义 token。原创 2025-03-29 14:56:41 · 924 阅读 · 0 评论 -
深度学习视觉2D检测算法综述
自从2012年深度学习再次应用,基于深度学习的视觉2D检测算法便得到了飞速的发展。2D检测算法到目前大致经历了3个阶段,第一个阶段是(2014-2017)两阶段目标检测算法、第二个阶段(2017-2020)单阶段目标检测算法、第三阶段(2020-2024)transformer目标检测算法。原创 2025-03-12 14:52:39 · 1556 阅读 · 0 评论 -
视觉深度学习骨干网络(backbone)
Backbone 的发展经历了从 CNN 到 Transformer 的演变,目前在自动驾驶中应用的主流backbone包括VGG、resnet、vovnet、ViT和Swin Transformer等。神经网络的骨干网络是整个深度学习模型中最核心的特征提取模块,其设计和性能直接影响模型在各类任务表现,未来重点是高效计算(边缘部署、NAS搜索)、融合架构(CNN、Transformer等)、多模态融合(图像、语言、点云等)、高效学习(少样本、无监督、迁移学习等)。原创 2025-03-21 14:43:05 · 931 阅读 · 0 评论 -
端到端自动驾驶VLM模型:LMDrive: Closed-Loop End-to-End Driving with Large Language Models
一方面,目前自动驾驶领域取得了显著进展,但在遇到长尾场景或复杂城市路况时,当前的自动驾驶方法仍容易失效甚至导致严重事故。另一方面,大语言模型(LLMs)展现出了接近“通用人工智能”的推理能力。因此,利用大语言模型所具备的“人类知识”帮助自动驾驶应对长尾问题,提升端到端模型的可解释性,并与导航和驾驶员进行互动成为端到端自动驾驶研究的热点。论文提出 LMDrive —— 一个新颖的、语言引导的、端到端、闭环自动驾驶框架。原创 2025-03-28 13:50:01 · 1002 阅读 · 0 评论