
自动驾驶
文章平均质量分 86
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
MPDrive:利用基于标记的提示学习提高自动驾驶的空间理解能力
25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室(广东 AI 和数字经济实验室)的论文“MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving”。自动驾驶视觉问答(AD-VQA)旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题,这在很大程度上依赖于模型的空间理解能力。先前的工作通常通过坐标的文本表示来表达空间信息,导致视觉坐标表示和文本描述之间存原创 2025-04-09 00:15:00 · 1625 阅读 · 0 评论 -
ADGaussian:用于自动驾驶的多模态输入泛化GS方法
25年4月来自香港中文大学和浙大的论文“ADGaussian: Generalizable Gaussian Splatting for Autonomous Driving with Multi-modal Inputs”。提出 ADGaussian 方法,用于可泛化的街道场景重建。所提出的方法能够从单视图输入实现高质量渲染。与之前主要关注几何细化的 gaussian Splatting 方法不同,其强调联合优化图像和深度特征以实现准确的高斯预测的重要性。为此,首先将稀疏 LiDAR 深度作为一种额外原创 2025-04-08 10:00:21 · 1029 阅读 · 0 评论 -
通过 BEV 世界模型进行在线轨迹评估的端到端驾驶
25年4月来自中科院自动化所和中科院大学的论文“End-to-End Driving with Online Trajectory Evaluation via BEV World Model”。端到端自动驾驶通过将感知、预测和规划整合到一个完全可微分的框架中,取得显著进展。然而,要充分发挥其潜力,有效的在线轨迹评估对于确保安全是必不可少的。通过预测给定轨迹的未来结果,轨迹评估变得更加有效。这一目标可以通过采用世界模型来捕捉环境动态和预测未来状态来实现。因此,提出一个端到端驾驶框架 WoTE,它利用 BE原创 2025-04-08 03:45:00 · 821 阅读 · 0 评论 -
OpenDriveVLA:通过大型视觉-语言-动作模型实现端到端自动驾驶
25年3月来自慕尼黑工大和慕尼黑大学的论文“OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model”。OpenDriveVLA,一种专为端到端自动驾驶而设计的视觉-语言-动作 (VLA) 模型。OpenDriveVLA 以开源预训练大型视觉-语言模型 (VLM) 为基础,以 3D 环境感知、自车状态和驾驶员命令为条件生成可靠的驾驶动作。为了弥合驾驶视觉表示和语言嵌入之间的模态差原创 2025-04-06 17:08:00 · 1091 阅读 · 0 评论 -
DiffAD:自动驾驶的统一扩散建模方法
25年3月来自新加坡公司 Carion 和北航的论文“DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving”。端到端自动驾驶 (E2E-AD) 已迅速成为实现完全自动驾驶的一种有前途的方法。然而,现有的 E2E-AD 系统通常采用传统的多任务框架,通过单独的特定任务头来处理感知、预测和规划任务。尽管以完全可微分的方式进行训练,但它们仍然遇到任务协调问题,并且系统复杂性仍然很高。这项工作引入 DiffAD——一种扩散概率模原创 2025-04-06 16:17:32 · 992 阅读 · 0 评论 -
CoLMDriver:基于 LLM 的协商有利于合作自动驾驶
25年3月来自上海交大和上海AI实验室的论文“CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving”。车对车 (V2V) 协作式自动驾驶通过解决单智体系统固有的感知和预测不确定性,有望在提高安全性方面取得巨大进展。然而,传统的协作方法受到严格的协作协议和对未见过交互场景有限泛化的限制。虽然基于 LLM 的方法提供了广义推理能力,但它们在空间规划方面的挑战和不稳定的推理延迟阻碍它们在协作驾驶中的直接应用。为了解决原创 2025-04-05 00:15:00 · 780 阅读 · 0 评论 -
RAD:通过基于大规模 3DGS 的强化学习训练端-到-端驾驶策略
25年2月来自华中科大和地平线的论文“RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning”。现有的端到端自动驾驶 (AD) 算法通常遵循模仿学习 (IL) 范式,该范式面临着因果混淆和开环间隙等挑战。这项工作建立一个基于 3DGS 的闭环强化学习 (RL) 训练范式。通过利用 3DGS 技术,构建真实物理世界的逼真数字复制,使 AD 策略能够广泛探索状态空间并通过大规模反原创 2025-04-05 00:15:00 · 815 阅读 · 0 评论 -
Chameleon: 快-慢思考的神经-符号车道拓扑提取
25年3月来自清华和博世的论文“Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction”。车道拓扑提取,涉及检测车道和交通元素并确定它们之间的关系,这是无地图自动驾驶的一项关键感知任务。此任务需要复杂的推理,例如确定是否可以左转进入特定车道。为了应对这一挑战,引入由视觉-语言基础模型 (VLM) 驱动的神经-符号方法。现有方法有明显的局限性:(1) 使用 VLM 进行密集的视觉提示可以实现强大的性能,但在财务资源和碳足迹方面成本高昂,因此原创 2025-03-15 00:15:00 · 951 阅读 · 0 评论 -
Occ-LLM:利用基于占用的大语言模型增强自动驾驶
25年2月来自香港科技大学广州分校的论文“Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models”。大语言模型 (LLM) 在机器人和自动驾驶领域取得重大进步。本研究提出一个基于占用的大型语言模型 (Occ-LLM),它代表将 LLM 与重要表示相结合的开创性努力。为了有效地将占用编码为 LLM 的输入并解决与占用相关的类别不平衡问题,其提出运动分离-变分自动编码器 (MS-VAE)。这种方法利用先验原创 2025-03-15 00:15:00 · 944 阅读 · 0 评论 -
AlphaDrive:通过强化学习和推理释放自动驾驶中 VLM 的力量
25年3月来自华中科技大学和地平线的论文“AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning”。OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到甚至超越人类专家级表现,其中强化学习 (RL) 和推理发挥着至关重要的作用。在自动驾驶中,最近的端到端模型已经大大提高规划性能,但由于常识和推理能力有限,仍然难以解决长尾问题。一些研究原创 2025-03-14 00:15:00 · 932 阅读 · 0 评论 -
Sce2DriveX:用于场景-到-驾驶学习的通用 MLLM 框架
25年2月来自中科院软件所和中科院大学的论文“Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning”。端到端自动驾驶是具身智能的重要组成部分,它将原始传感器输入直接映射到低级车辆控制。尽管在应用多模态大语言模型 (MLLM) 进行高级交通场景语义理解方面取得成功,但将这些概念语义理解有效地转化为低级运动控制命令并在跨场景驾驶中实现泛化和共识仍然具有挑战性。Sce2DriveX,是一种类似人类驾驶思维链 (CoT) 推理原创 2025-03-09 00:15:00 · 749 阅读 · 0 评论 -
CarPlanner:用于自动驾驶大规模强化学习的一致性自回归轨迹规划
25年2月来自浙大和菜鸟网络的论文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。轨迹规划对于自动驾驶至关重要,可确保在复杂环境中安全高效地导航。虽然最近基于学习的方法,特别是强化学习 (RL),在特定场景中显示出良好的前景,但 RL 规划器在训练效率低下和管理大规模真实驾驶场景方面仍存在困难。本文介绍 Car原创 2025-03-08 08:54:00 · 1227 阅读 · 0 评论 -
用于自动驾驶的半监督视觉中心 3D 占用世界模型
25年2月来自清华大学的论文“Semi-supervised Vision-centric 3d Occupancy World Model For Autonomous Driving”。了解世界动态对于自动驾驶规划至关重要。最近的方法试图通过学习 3D 占用世界模型来实现这一点,该模型基于当前观察预测未来的周围场景。然而,3D 占用标签仍然需要产生有希望的结果。考虑到 3D 户外场景的注释成本很高,本文提出一个半监督的以视觉为中心 3D 占用世界模型 PreWorld,通过一种两阶段训练范式来利用原创 2025-03-08 04:00:00 · 1308 阅读 · 0 评论 -
ReconDreamer:通过在线恢复构建驾驶场景重建的世界模型
24年11月来自极佳科技、北大、理想汽车和中科院自动化所的论文“ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration”。ReconDreamer,通过逐步整合世界模型知识来增强驾驶场景重建。具体来说,DriveRestorer 通过在线恢复来减轻伪影。该功能通过渐进式数据更新策略加以补充,旨在确保更复杂机动的高质量渲染。ReconDreamer 是一种能够在大规模机动中有效渲原创 2025-03-06 00:15:00 · 765 阅读 · 0 评论 -
MagicDriveDiT:具有自适应控制的自动驾驶高分辨率长视频生成
24年11月来自香港中文大学、香港科技大学和华为公司的论文“MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control”。扩散模型的快速进步极大地改善视频合成,特别是可控视频生成,这对于自动驾驶等应用至关重要。然而,现有的方法受到可扩展性和控制条件集成方式的限制,无法满足自动驾驶应用对高分辨率和长视频的需求。本文介绍一种基于 DiT 架构的方法 MagicDriveDi原创 2025-03-06 00:15:00 · 528 阅读 · 0 评论 -
VLM-E2E:通过多模态驾驶员注意融合增强端到端自动驾驶
25年2月来自香港科大广州分校、理想汽车和厦门大学的论文“VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion”。人类驾驶员能够利用丰富的注意语义,熟练地应对复杂场景,但当前的自动驾驶系统难以复制这种能力,因为它们在将 2D 观测值转换为 3D 空间时经常会丢失关键的语义信息。从这个意义上说,这阻碍了它们在动态和复杂环境中的有效部署。利用视觉-语言模型 (VLM) 卓越的场景理解和原创 2025-03-05 00:15:00 · 1182 阅读 · 0 评论 -
LeapVAD:通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃
25年1月来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文“LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking”。尽管自动驾驶技术取得长足进步,但由于推理能力有限,数据驱动方法仍然难以应对复杂场景。与此同时,随着视觉语言模型的普及,知识驱动的自动驾驶系统也得到了长足发展。本文提出一种基于认知感知和 Dual-Process 思维的新方法 LeapVAD。该方法实现原创 2025-03-01 00:15:00 · 1214 阅读 · 0 评论 -
FASIONAD:自适应反馈的类人自动驾驶中快速和慢速思维融合系统
24年11月来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大(成都)、智平方科技和河南润泰数字科技的论文“FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback”。确保安全、舒适和高效的导航是自动驾驶系统开发和可靠性的基础。虽然在大型数据集上训练的端到端模型在标准驾驶情况下表现良好,但它们往往难以应对罕见的长尾事件。大语原创 2025-03-01 00:15:00 · 1010 阅读 · 0 评论 -
GEM:一种可泛化的自我视觉多模态世界模型,用于细粒度自我运动、目标动态和场景合成控制
24年12月来自瑞士EPFL、Bern大学、瑞士国家数据中心、苏黎世大学和ETH的论文“GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control”。GEM 是一种可泛化的自我视觉多模态世界模型,它使用参考帧、稀疏特征、人体姿态和自我轨迹来预测未来帧。因此,模型可以精确控制目标动态、自我智体运动和人体姿态原创 2025-02-16 07:17:21 · 1095 阅读 · 0 评论 -
LearningFlow:大语言模型城市驾驶的自动化策略学习工作流程
25年1月来自香港科技大学广州分校的论文“LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models”。强化学习 (RL) 的最新进展表明其在自动驾驶领域具有巨大潜力。尽管前景光明,但诸如手动设计奖励函数和复杂环境中的低样本效率等挑战,仍然阻碍着安全有效的驾驶策略开发。为了解决这些问题,LearningFlow,针对城市驾驶的自动化策略学习,提出一个工作流程。该框架在整个 RL原创 2025-02-14 00:15:00 · 1266 阅读 · 0 评论 -
使用零样本 LLM 在现实环境中推广端到端自动驾驶
24年12月来自纽约stony brook大学、UIC和桑瑞思(数字化医疗科技公司)的论文“Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs”。传统的自动驾驶方法采用模块化设计,将任务分解为子任务。相反,端到端自动驾驶直接从原始传感器数据输出动作,避免错误积累。然而,训练端到端模型需要全面的数据集;否则,模型的泛化能力较差。最近,大语言模型(LLM)已被用于增强端到端驾驶模原创 2025-01-24 00:15:00 · 751 阅读 · 0 评论 -
PARA-Drive:实时自动驾驶的并行架构
24年CVPR来自Nvidia、USC 和斯坦福的论文“PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving”。最近的研究提出由可微分模块组成的端到端自动驾驶汽车 (AV) 架构,以实现最先进的驾驶性能。虽然它们比传统的感知-预测-规划流程更具优势(例如,消除组件之间的信息瓶颈并减轻集成挑战),但它们使用多样化的任务、模块及其互连组合来实现这一点。然而,到目前为止,还没有系统地分析过这些模块的必要性,也没有分析过它们原创 2025-01-24 00:15:00 · 990 阅读 · 0 评论 -
SparseDrive:通过稀疏场景表示实现端到端自动驾驶
24年5月来自清华和地平线的论文“SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation”。成熟的模块化自动驾驶系统被分解为不同的独立任务,例如感知、预测和规划,这些任务在模块之间会遭受信息丢失和错误积累。相比之下,端到端范式将多任务统一到一个完全可微的框架中,从而可以以规划为导向进行优化。尽管端到端范式具有巨大潜力,但现有方法的性能和效率都不令人满意,特别是在规划安全方面。其归因于计算成本高昂的 BEV(鸟瞰原创 2025-01-24 00:15:00 · 939 阅读 · 0 评论 -
WiseAD:基于视觉-语言模型的知识增强型端到端自动驾驶
24年12月来自新加坡国立和浙大的论文“WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model”。随着视觉语言模型 (VLM) 的快速发展,人类通用知识和令人印象深刻的逻辑推理能力的出现,推动人们对将 VLM 应用于高级自动驾驶任务(如场景理解和决策)的兴趣日益浓厚。然而,深入研究知识熟练程度(尤其是基本驾驶专业知识)与闭环自动驾驶性能之间的关系需要进一步探索。本文研究基本驾驶知识的深度和广原创 2025-01-21 00:15:33 · 1070 阅读 · 0 评论 -
SafeDrive:大语言模型实现自动驾驶汽车知识驱动和数据驱动的风险-敏感决策
24年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。然而,确保动态、高风险环境中的安全并管理,对安全至关重要的长尾事件仍然是一项重大挑原创 2025-01-21 00:13:49 · 885 阅读 · 0 评论 -
探索决策策略的紧要测试场景:一个LLM方法
24年12月来自清华大学的论文“Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach”。决策策略的最新进展已在自动驾驶和机器人等领域取得重大进展。然而,由于存在可能威胁其可靠性的关键场景,测试这些策略仍然至关重要。尽管研究正在进行中,但由于决策策略及其环境的复杂性,测试效率低和多样性有限等挑战仍然存在。为了应对这些挑战,本文提出一个适应性强的大语言模型 (LLM) 驱动的在线测试框架,以探索决策原创 2025-01-19 00:18:36 · 1109 阅读 · 0 评论 -
PLUTO:突破基于模仿学习的自动驾驶规划极限
24年4月来自香港科技大学的论文“PLUTO: Pushing the Limit of Imitation Learning-based Planning for Autonomous Driving”。PLUTO,突破基于模仿学习的自动驾驶规划极限。改进来自三个关键方面:一种纵向横向感知模型架构,可实现灵活多样的驾驶行为;一种创新的辅助损失计算方法,可广泛应用且可高效地进行批量计算;一种利用对比学习的训练框架,采用一系列数据增强,以规范驾驶行为并促进对底层交互的理解。用大规模真实世界 nuPlan原创 2025-01-18 00:34:42 · 1107 阅读 · 0 评论 -
LargeAD:用于自动驾驶的大规模跨传感器数据预训练
25年1月来自新加坡国立大学、南京航空航天、德国Bremerhaven技术大学、上海AI实验室、香港科技大学和香港大学的论文“LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving”。视觉基础模型 (VFM) 的最新进展彻底改变 2D 视觉感知,但它们在 3D 场景理解方面的潜力,特别是在自动驾驶应用中的潜力仍未得到充分探索。LargeAD,是一个多功能且可扩展的框架,专为跨各种现实世界驾驶数据集进行大规模 3D原创 2025-01-18 00:29:33 · 863 阅读 · 0 评论 -
DriveDreamer4D: 世界模型是 4D 驾驶场景表征的有效数据机器
24年11月来自极佳科技、中科院自动化所、理想汽车、北大和慕尼黑工大的论文“DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation”。闭环模拟对于推进端到端自动驾驶系统至关重要。当代传感器模拟方法,例如 NeRF 和 3DGS,主要依赖于与训练数据分布紧密相关的条件,而这些条件主要局限于前向驾驶场景。因此,这些方法在渲染复杂动作(例如变道、加速、减速)时面临局限性。自动驾驶世原创 2025-01-18 00:27:36 · 1153 阅读 · 0 评论 -
InfinityDrive:突破驾驶世界模型的时间限制
24年12月来自商汤绝影和清华大学的论文“InfinityDrive: Breaking Time Limits in Driving World Models”。由于无法获取对于安全导航至关重要的多样化、广泛性和分布外的驾驶数据,自动驾驶系统在应对复杂场景时举步维艰。世界模型为这一挑战提供一个有希望的解决方案;然而,当前的驾驶世界模型受到短时窗和有限场景多样性的限制。为了弥补这一差距, InfinityDrive,一个具有泛化能力的驾驶世界模型,通过分钟级视频生成提供高保真度、一致性和多样性的最先进性原创 2025-01-17 00:15:01 · 904 阅读 · 0 评论 -
Driv3R:学习自动驾驶的密集 4D 重建
24年12月来自清华和伯克利分校的论文“Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving”。动态场景的实时 4D 重建仍然是自动驾驶感知的关键挑战。大多数现有方法依赖于通过自监督或多模态传感器融合进行深度估计。Driv3R,是一个基于 DUSt3R 的框架,可直接从多视图图像序列中回归每帧点图。为了实现流式密集重建,维护一个内存池来推理跨传感器的空间关系和动态时间上下文,以增强多视图 3D 一致性和时间整合。此外,用 4D 流预原创 2025-01-14 17:35:52 · 761 阅读 · 0 评论 -
DFIT-OccWorld:通过解耦动态流和图像辅助训练实现高效占用世界模型
24年12月来自香港中文大学深圳分校、香港大学和华为诺亚的论文“An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training”。自动驾驶领域对世界模型的兴趣日益浓厚,该模型旨在根据历史观察预测潜在的未来场景。本文介绍 DFIT-OccWorld,这是一种高效的 3D 占用世界模型,它利用解耦动态流和图像辅助训练策略,大幅提高 4D 场景预测性能。为了简化训练过程,摒弃之前的两阶段训练策略,原创 2025-01-13 00:32:17 · 663 阅读 · 0 评论 -
DrivingGPT:使用多模态自回归Transformer统一驾驶世界建模和规划
24年12月来自中科院自动化所、中科院大学和中科院香港AI机器人中心的论文“DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers”。基于世界模型的搜索和规划被广泛认为是实现人类水平物理智能的一条有前途的道路。然而,目前的驾驶世界模型主要依赖于视频扩散模型,这些模型专注于视觉生成,但缺乏纳入动作等其他模态的灵活性。相比之下,自回归TRansformer在建模原创 2025-01-13 00:30:11 · 970 阅读 · 0 评论 -
DrivingWorld:通过视频 GPT 构建自动驾驶的世界模型
24年12月香港科技大学和地平线的论文“DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT”。自回归 (AR) 生成模型(例如自然语言处理中的 GPT 系列)的最新成功,促使人们努力在视觉任务中复制这种成功。一些研究试图通过构建基于视频的世界模型将这种方法扩展到自动驾驶,该模型能够生成逼真的未来视频序列并预测自车状态。然而,先前的研究往往会产生不令人满意的结果,因为经典的 GPT 框架旨在处理 1D 上下文原创 2025-01-11 00:09:02 · 1079 阅读 · 1 评论 -
FusionAD:用于自动驾驶预测和规划任务的多模态融合方法
23年8月来自西湖大学、有鹿机器人公司、菜鸟和阿里的论文“FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving”。构建一个多模态多任务神经网络实现准确和稳健的性能,是自动驾驶感知任务的事实标准。然而,利用来自多个传感器的数据来联合优化预测和规划任务在很大程度上仍未被探索。 FusionAD,是一个融合来自两个最关键的传感器(摄像头和激光雷达)信息的统一框架,超越感知任务。具体来说,首原创 2025-01-07 00:26:21 · 1500 阅读 · 0 评论 -
自我状态是否就是开环端到端自动驾驶所需要的全部?
24年6月来自南京大学和Nvidia的论文“Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?”。端到端自动驾驶最近成为一种有前途的研究方向,旨在从全栈视角实现自动驾驶。沿着这条思路,许多最新研究都遵循 nuScenes 上的开环评估设置来研究规划行为。本文进行彻底的分析和揭开更多细节中的谜团,深入研究这个问题。nuScenes 数据集以相对简单的驾驶场景为特征,导致在结合自我状态(例如自车的速度)的端到端模型中原创 2025-01-07 00:25:27 · 830 阅读 · 0 评论 -
Gen-Drive:通过奖励建模和强化学习微调, 增强扩散生成驾驶策略
24年10月来自南洋理工、Nvidia和斯坦福的论文“Gen-Drive: Enhancing Diffusion Generative Driving Policies with Reward Modeling and Reinforcement Learning Fine-tuning”。自动驾驶需要能够推理交通智体之间的未来交互,并做出明智的规划评估。 Gen-Drive ,从传统的预测和确定性规划框架转变为生成-然后-评估的规划范式。该框架采用行为扩散模型作为场景生成器,以产生各种可能的未来场景原创 2025-01-01 01:00:52 · 1248 阅读 · 0 评论 -
HE-Drive:利用视觉-语言模型实现类人端到端驾驶
24年10月来自地平线、香港大学、中科院大学和北京交大的论文“HE-Drive:Human-Like End-To-End Driving With Vision Language Models”。HE-Drive是一个以人为本的端到端自动驾驶系统,可生成时间一致且舒适的轨迹。最近的研究表明,基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成和选择与专家演示非常相似的准确轨迹。然而,这样的轨迹规划器和评分器面临着生成时间不一致和不舒服轨迹的困境。原创 2025-01-01 00:59:37 · 1169 阅读 · 0 评论 -
VLM-MPC:自动驾驶中模型预测控制器增强视觉-语言模型
24年8月来自威斯康星大学的论文“VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving”。受视觉-语言模型 (VLM) 新推理能力及其提高自动驾驶系统可理解性的潜力推动, VLM-MPC 是一个闭环自动驾驶控制器,它将模型预测控制器 (MPC) 与 VLM 相结合,评估基于模型的控制如何增强 VLM 决策。原创 2024-12-31 00:04:16 · 1199 阅读 · 0 评论 -
数据驱动的扩散模型提高自动驾驶汽车交通模拟的安全性
24年10月来自芬兰 Aalto University、芬兰 AI 中心和 Tampere University 的论文“Data-driven Diffusion Models for Enhancing Safety in Autonomous Vehicle Traffic Simulations”。安全-紧要交通场景对于自动驾驶系统的开发和验证至关重要。这些场景为车辆在现实世界中很少遇到的高风险条件下的响应提供了重要的见解。原创 2024-12-31 00:02:53 · 802 阅读 · 0 评论