自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(407)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 2024年自动驾驶规划控制面试及答案

A*吸取了Dijkstra 算法中的cost_so_far,为每个边长设置权值,不停的计算每个顶点到起始顶点的距离(G),以获得最短路线, 同时也汲取贪婪最佳优先搜索算法中不断向目标前进优势,并持续计算每个顶点到目标顶点的距离(Heuristic distance),以引导搜索队列不断想目标逼近,从而搜索更少的顶点,保持寻路的高效。DWA,TEB算法。通常情况下,在机器人高速运动的时候,想要得到非常连续、平滑、噪音低的运动控制,第3个约束条件是必不可少的,有的甚至还要求加速度的导数jerk都是连续的。

2024-07-22 18:43:12 1291

原创 闭环SOTA!北航DiffAD:基于扩散模型实现端到端自动驾驶「多任务闭环统一」

端到端自动驾驶(E2E-AD)已经快速成为实现完全自主驾驶的一种有前景的方法。然而,现有的E2E-AD系统通常采用传统的多任务框架,通过单独的特定任务头来解决感知、预测和规划任务。尽管这些系统以完全可微分的方式进行训练,但是它们仍然会遇到任务协调问题,系统复杂度仍然很高。本项工作引入了DiffAD,这是一种新的扩散概率模型,它将自动驾驶重新定义为一种条件图像生成任务。

2025-04-02 17:54:37 643

原创 上海交大发布CoLMDriver:首个基于LLM的全流程协作驾驶系统,成功率提升11%!

©️【深蓝AI】编译论文题目:CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving论文作者:Changxing Liu, Genjia Liu, Zijun Wang, Jinchang Yang, Siheng Chen论文地址:https://arxiv.org/abs/2503.08683。

2025-04-01 17:56:07 434

原创 ICLR 2025|华科OVTR:首次实现端到端开放词汇多目标跟踪,刷新性能SOTA!

多目标跟踪(MOT)是视频感知的核心技术,广泛应用于自动驾驶、视频分析等领域。传统 MOT 方法通常基于闭合词汇(closed-vocabulary),只能跟踪训练时见过的类别,如“人”、“车”、“自行车”。然而,现实世界复杂多变,经常出现训练时未见过的新类别,传统模型在这种情况下往往表现不佳。而人类却能轻松识别并跟踪任何物体,这种能力启发了研究者提出开放词汇多目标跟踪(OVMOT)的概念——让模型在零样本条件下识别和跟踪新类别,以满足智能城市、自动驾驶等场景的多样化需求。然而,1.

2025-03-28 18:02:30 554

原创 已开源|清华大学发布:首个融合4D雷达的多模态协同感知数据集,35万标注框!

指利用单一平台(路侧单元或车载设备)的传感器数据完成3D物体识别。单端3D目标检测面临两大核心挑战:需分别实现相机图像的三维几何映射、LiDAR点云的高效特征提取、4D雷达(含速度信息)的稀疏数据表征,确保各模态独立感知精度。需解决跨模态时空对齐(坐标系/时序同步)、动态场景下的数据错位补偿,以及传感器异常时的鲁棒性保障,实现稳定融合检测。该任务包含两种典型视角场景:基于V2X-Radar-I数据集,通过部署在道路基础设施的雷达等传感器实现环境目标检测;

2025-03-25 19:09:01 881

原创 地平线AlphaDrive:首个基于GRPO的自动驾驶大模型,仅用20%数据,性能超越SFT 35%!

​端到端自动驾驶成为最具代表性的模型之一。它们以传感器数据为输入,利用可学习的神经网络规划车辆的未来轨迹。得益于大规模驾驶演示数据,端到端模型通过扩展训练数据和增加模型参数,不断提升了其规划能力。然而,由于其黑盒性质和缺乏常识,端到端模型在处理复杂和长尾驾驶场景时仍面临重大挑战。同时,大语言模型(LLMs)展现出卓越的理解和推理能力。它们的能力已从单模态的文本理解扩展到多模态的视觉语言处理。VLMs 的常识和推理能力可以弥补端到端模型的局限性。将VLMs应用于自动驾驶的研究当前分为两个方向。

2025-03-24 17:56:23 1020

原创 人大&字节最新成果|FlexWorld:首次实现从单图生成高保真动态3D场景的突破性框架

其次,摄像机轨迹规划的重要性通过去掉 Zoom-out 轨迹的实验得以验证,生成场景的内容与输入视角不匹配,导致结构模糊(见图 9b),说明初始拉远变焦(Zoom-out)对于扩展三维场景不可或缺。特别地,该研究通过在高精度深度估计的训练数据上微调先进的视频基础模型,使得 V2V 模型能够在大范围摄像机变化的情况下生成高质量的内容。综合定性与定量结果,FlexWorld 生成的三维场景不仅在 3D 结构一致性上表现优异,同时在视觉质量方面也展现了显著优势,证明了其在三维场景生成任务中的有效性。

2025-03-23 18:56:06 699

原创 7大主流仿真平台深度解析|具身智能革新:GPU加速80倍+生成式AI,效率飙升!

在机器人和人工智能研究领域,仿真平台扮演着至关重要的角色。它们不仅能够加速算法开发和验证过程,还能显著降低研究成本并提高安全性。高质量的仿真环境使研究人员能够在不涉及实体硬件的情况下,快速测试和优化各种算法和策略。这种方法不仅降低了设备损坏的风险,也大大减少了实验所需的时间和资源投入。特别是在涉及复杂场景或危险操作的研究中,仿真平台的价值更加凸显。本文将详细介绍七个主流的仿真平台,涵盖它们的特点、应用场景和技术优势。这些平台各具特色,能够满足不同研究和开发需求。

2025-03-21 17:56:03 728

原创 【IROS 2025】CMU提出路径规划器PIPE:机器人探索效率提升14.6%,地图准确率提高9.3%!

该研究提出了一种基于路径的信息增益探索方法(PIPE),旨在优化机器人在未知环境中的探索效率。不同于传统的基于前沿点的探索方法,PIPE 通过结合环境预测、路径级别的信息增益计算和不确定性评估,使机器人能够在选择路径时更加智能化,从而最大程度地减少探索过程中的信息不确定性。实验结果表明,PIPE 在多个复杂室内环境中均表现出优越的探索效率和更高的地图构建精度。

2025-03-20 17:57:43 1195

原创 顶刊收录|武大最新成果:具身智能目标导航新方案,成功率提升23%,路径效率优化31%!

该研究提出了面向物体-目标导航的情境感知图推理(CGI)与生成式对抗模仿学习(GAIL)。得益于所提出的CGI,智能体能够在导航过程中根据图像、动作和记忆等动态上下文信息灵活推断对象关系。结合图注意力网络,CGI能够让智能体将注意力集中在更加关键的对象关联上,从而有效缩小搜索范围。与此同时,通过GAIL生成动态奖励并与环境奖励相结合,智能体可以在专家示例的指引下学会更稳健的导航策略,从而避免陷入卡住或循环运动等失败状态。最后,研究将A3C强化学习算法与GAIL相结合,以实现稳定的策略训练。

2025-03-19 17:37:31 716

原创 Nature子刊|机器人终身学习框架LEGION实现零遗忘,成功率高达84%!

其创新的知识空间设计使机器人能够动态推断、保存和组合任务知识,而语言嵌入的引入则显著增强了机器人对任务语义的理解能力,使其在面对复杂、长时程任务时表现出更强的泛化能力和灵活性。近日,来自慕尼黑工业大学、南京大学、中山大学和清华大学的研究团队提出了一种名为基于贝叶斯非参数模型的语言嵌入生成增量离线策略强化学习框架(LEGION)的机器人终身强化学习框架,该框架通过结合贝叶斯非参数模型和语言嵌入,实现了机器人在终身学习中的知识积累与重利用,并在《Nature Machine Intelligence》上发表。

2025-03-18 18:30:29 421

原创 Topo2Seq:突破DETR局限,车道拓扑推理新高度

从透视图(PV)中提取车道拓扑对于自动驾驶的规划和控制是至关重要的。该方法为自动驾驶汽车提取潜在的可行驶轨迹,而不依赖于高精(HD)地图。然而,DETR类框架的无序性和弱远距离感知可能会导致线段端点错位和拓扑预测能力有限等问题。受到语言模型中上下文关系学习的启发,道路的连接关系可以表征为显式的拓扑序列。本文引入了Topo2Seq,这是一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq的核心概念为车道线段解码器和拓扑序列解码器之间随机顺序的提示到序列学习。

2025-03-16 19:57:47 631

原创 NVIDIA×卡内基梅隆大学重磅突破:大语言模型重塑车联网协同自动驾驶,开创V2V-LLM新范式

随着深度学习算法的进步、计算基础设施的发展以及大规模真实世界驾驶数据集的发布,自动驾驶技术取得了显著进展。然而,当前自动驾驶车辆的感知和规划系统主要依赖于其自身的LiDAR传感器和摄像头来检测周围重要物体并规划未来轨迹。这种方法在传感器被遮挡或发生故障时可能会遇到安全关键问题。在这种情况下,自动驾驶车辆无法准确检测所有附近的重要物体,导致后续轨迹规划结果变得不可靠。为了解决这个安全关键问题,近期研究提出了基于车辆间(V2V)通信的协同感知算法。

2025-03-16 19:57:19 822

原创 避障成功率提升40%! ClipRover 仅使用单目视觉实现零样本推理+高效导航

为了区分可导航的空间和不可导航的空间,文章作者设计了一组描述清洁且可导航环境的正向提示,例如:“一张(平坦|开放|宽阔|清晰的){地板|地面|走廊}的照片”,以及一组描述被障碍物堵塞的空间的负向提示,例如:“一张[裁剪|模糊|不完整]的(被阻挡|杂乱|拥挤的){场景|空间}的照片”和“一张(大|阻挡通道的){物体|物品}的照片”。本论文提出了ClipRover,一个新颖的框架,利用通用视觉语言模型(VLM)的空间上下文感知能力,引导机器人在未知环境中的探索和目标发现。左侧:代表机器人机载摄像头的合成图像;

2025-03-13 17:10:09 883

原创 成功率暴涨44%!VL-Nav:像素级视觉语言导航,让机器人像人一样思考

在本文中,作者介绍了 VL-Nav,这是一种视觉 - 语言导航框架,能够在资源受限的平台上实现实时高效运行。通过将像素级视觉 - 语言特征与基于好奇心的探索策略相结合,作者的 CVL 空间推理方法在多种室内和室外环境中展现了稳健的性能。在实际测试中,VL-Nav 不仅在 Jetson Orin NX 上实现了 30 赫兹的实时导航,而且比现有方法提高了 44.15%,总体成功率达到 86.3%。

2025-03-13 17:09:30 722

原创 跟踪性能提高11%|端到端新架构DMAD:通过分离语义-运动学习解决负迁移难题

感知环境及其随时间的变化对应于两个基本但异构的信息类型:语义和运动。先前的端到端自动驾驶工作在单个特征向量中表示这两种类型的信息。然而,预测和规划等运动任务总是会降低检测和跟踪性能,这种现象在多任务学习中被称为负迁移。为了解决这个问题,本文提出了神经贝叶斯运动解码,这是一种新的并行检测、跟踪和预测方法,它分离了语义学习和运动学习,这类似于贝叶斯滤波器。具体而言,本文采用了一组与检测和跟踪查询并行运行的学习运动查询,共享一组统一的递归更新的参考点。

2025-03-09 19:27:09 651

原创 碰撞率降低57.4%!VLM-AD显著提升自动驾驶规划准确性,无需VLM实时推理

端到端自动驾驶(AD)将感知、预测和规划整合到一个框架中,旨在协调检测、跟踪等复杂任务。近期方法通过传感器数据生成自我轨迹,但面对复杂场景时性能下降。人类驾驶员通过推理环境有效应对挑战,而现有模型依赖于轨迹点序列监督,缺乏推理信息。手动标注推理信息成本高且耗时,难以获得高质量标注。大型基础模型如视觉-语言模型(VLMs)提供了替代方案,增强了驾驶系统的推理能力。然而,直接整合这些模型需要大量微调,并增加训练和推理时间,使其不适用于实际应用。

2025-03-09 19:23:08 942

原创 从仿真到实车!同济大学:TeLL-Drive如何用多视角验证解决路口决策“博弈”难题?

在过去十年中,自动驾驶技术取得了显著进展,正在成为一股有望彻底改变交通运输领域的变革力量。自动驾驶汽车通过提升安全性、减少交通拥堵以及提高出行便利性,正在重新定义现代交通的格局。自动驾驶系统的核心在于其实时复杂决策能力,这种决策能力需要能够与甚至超越人类驾驶员的水平。要实现如此复杂的决策过程,需要整合先进的人工智能方法,使系统能够感知、理解并对动态且往往不可预测的驾驶环境做出响应。深度强化学习(DRL)已经成为自动驾驶系统决策的关键框架。在自动驾驶领域,DRL被用于开发车辆行为策略,例如路口导航等场景。

2025-03-06 18:05:15 532

原创 机器人“家教”时代降临!NVIDIA黑科技让机器看视频自学跨域操作

HAMSTER 研究了分层 VLA 模型的潜力,在机器人操作中实现了强大的泛化能力。该模型包括一个经过微调的 VLM,能够准确预测机器人操作的 2D 路径,以及一个低级策略,该策略学习使用 2D 路径生成动作。这种两步架构实现了跨显著域变化的视觉泛化和语义推理,同时使得数据高效的专业策略(如基于 3D 输入的策略)能够执行低级动作。这项工作代表了开发多功能、分层 VLA 方法的第一步,未来有众多改进和扩展的机会。目前提出的工作仅在 2D 空间中生成点,而没有进行原生的 3D 预测。

2025-03-06 16:42:40 951

原创 分割性能超SOTA 6.2%!最新多模态地图构建BEV特征融合网络MapFusion

导读自动驾驶系统包括感知、预测、决策、规划等不同的功能模块。对于其中的自动驾驶规划模块而言,要想实现准确安全的路径规划,就需要利用自动驾驶车辆上配置的传感器采集周围的环境信息构建地图。图1展示了高精地图(HD Map)与地图分割(Map Segmentation)两类地图构建任务示意图。©️【深蓝AI】编译论文标题:MapFusion: A Novel BEV Feature Fusion Network for Multi-modal Map Construction。

2025-03-06 16:41:45 474

原创 港科大&华为诺亚发布Occ-LLM:大模型赋能自动驾驶,空间感知能力飞跃

港科大&华为诺亚方舟提出Occ-LLM,结合大语言模型与占用网络,显著提升自动驾驶空间感知与决策能力。

2025-03-03 10:13:08 1054

原创 ICRA顶会 | 当无人机遇上扩散模型:如何让四旋翼飞行器在复杂环境中「稳如泰山」?

DroneDiffusion的突破不仅在于技术层面,更展示了一种跨学科思维范式:当控制理论面对现实世界的混沌,生成式AI的“想象力”或许正是解码不确定性的钥匙。这种以扩散模型为桥梁,连接数据驱动学习与经典控制理论的方法,为机器人、自动驾驶等领域带来了普适性框架。或许在不远的未来,所有需要在混沌现实世界中自主行动的智能体,都将携带一枚“扩散核心”——以生成之能,驯服无常。编译|麻哈情节审核|apr%24u%24%24z%24。

2025-03-03 10:12:50 1123

原创 512台无人机!GCBF+如何实现大规模多智能体动态避障的?

GCBF+:多机安全无上限

2025-02-27 18:50:57 1289

原创 DILLEMA:扩散模型+大语言模型,多模态数据增强框架

DILLEMA 通过结合字幕生成、LLM 驱动的假设性生成和可控扩散模型,可以有效地揭示模型的弱点并提高模型鲁棒性。未来的工作将与其他基线进行比较,并探索生成测试数据集的优先级排序。DILLEMA 的提出为深度学习模型的测试和鲁棒性提升提供了一种新的思路,有望在自动驾驶、医疗影像等领域发挥重要作用。

2025-02-27 18:43:53 1087

原创 最新突破!浙大&华为:PanopticRecon++实现机器人端到端全景重建

基于二维视觉语言模型的开放世界的分割重建因其在Real-to-Sim起到重要作用而受到机器人领域的广泛关注。然而,现有方法受限于对场景空间几何理解的缺乏和分阶段方法的误差累积,限制了其在复杂环境中的分割精度的提升。针对这一问题,浙江大学熊蓉、王越团队与华为云具身智能实验室共同提出一种名为PanopticRecon++的分割重建新范式,通过交叉注意力机制联合三维空间先验与语义分割特征,实现端到端的开放词汇全景重建。©️【深蓝AI】编译本文由paper一作——Xuan Yu 授权【深蓝AI】编译发布!

2025-02-27 18:42:11 863

原创 1B小模型完胜405B巨无霸!上海AILab新突破

小模型靠「过程监督」逆袭大模型性能边界

2025-02-23 17:12:30 922

原创 MoBA vs NSA:DeepSeek和Kimi的首次PK

DeepSeek最近的爆火盖过了之前所有大模型创业明星公司的风头,Kimi这个报告算是第一个正面迎接DeepSeek挑战的工作。尽管DeepSeek的模型十分强大,但它仍然是一个局限于文本模态的LLM。多模态领域(语音,图像,甚至视频模态)的DeepSeek R1 Zero还暂未浮出水面,期待DeepSeek这一波浪潮能够给我们带来更强大的图像大模型,语音大模型,视觉大模型等,希望未来能够看到大模型领域进一步百花齐放,百家争鸣的景象。

2025-02-22 18:22:36 870

原创 DeepSeek又出新成果:用代码也能培养模型的推理能力?

研究人员提出了CODEI/O方法,通过训练大型语言模型以纯自然语言思维链(CoT)的形式预测代码输入和输出来增强其推理能力。该方法利用代码的结构化与可扩展特性,能够学习符号推理、逻辑推理、数学推理和常识推理等多样化推理模式。大量实验表明,CODEI/O及其增强版本CODEI/O++在各项基准测试中均显著优于现有基线方法,且未在任何领域出现性能下降,实现了跨领域的均衡性能提升,充分证明了该方法的鲁棒性与通用性。编译|Famcous。

2025-02-21 17:54:26 810

原创 LLM增强的RLHF框架,用多模态人类反馈提升自动驾驶安全性!

融合多模态人类生理数据与强化学习,提升自动驾驶安全性与人机协同能力。

2025-02-19 16:57:14 1092

原创 点跟踪新突破!北大&港大开源:ProTracker遮挡消失能“自动找回”,0丢帧?

ProTracker光流语义双融合,抗遮挡追踪精准登顶,代码开源!

2025-02-18 18:32:13 827 1

原创 吊打NeRF!港理工团队开源SIDGaussian:3张图0.2秒生成高清3D建模,PSNR暴涨0.4dB

港理工提出SIDGaussian方法,通过语义对齐与局部深度优化,实现稀疏视图下3D场景的实时高保真重建,PSNR提升达0.4dB,细节拉满!

2025-02-16 19:18:33 662

原创 FaGeL:将LLMs用于具身智能研究的最佳案例

FaGeL,一个由智能织物和 LLM 赋能的具身智能体,能够持续收集大规模可穿戴和环境多模态数据。

2025-02-15 18:51:43 960

原创 Facebook“开山鼻祖”已掉队?Meta、智谱、阿里谁能真正实现纯语音交互?

全双工语音大模型:纯语音与多模态之争!

2025-02-14 20:34:45 917

原创 狂降90%!参数压缩还能这样玩?VQ量化三大奇招,模型瘦身新思路

从上文梳理的研究内容不难发现,VQ方法确实可以突破常数量化的瓶颈,取得更高的压缩比例,且将VQ方法应用于LLM参数压缩在随着研究的深入渐渐变得成熟。从AQLM首次把VQ应用到LLM上,经过GPTVQ和VPTQ的迭代已经逐渐形成了一定的范式,未来有望进一步地降低LLM的使用门槛,使得LLM可以在更加普适的场景下得以应用,发挥更大价值。

2025-02-13 17:54:58 577

原创 ICLR 2025 oral|用nuPlan + 200h物流小车数据集测试!SOTA扩散模型轨迹规划器来了

自动驾驶规划正朝着更安全、高效的方向发展,但在复杂环境下实现类人驾驶仍具挑战。基于规则的方法虽在工业应用中取得成功,但适应性差,调整成本高;模仿学习能直接学习专家驾驶行为,并随训练数据扩展提升性能。然而,模仿学习方法在多模态行为适应性、泛化能力和驾驶风格灵活调控上仍存挑战,依赖后处理来优化模型输出。近年来,扩散模型在决策领域得到广泛应用,但在自动驾驶规划中的探索仍有限。现有研究多聚焦于运动预测和场景生成,关注开环性能,而非闭环规划。

2025-02-12 18:26:10 933

原创 LLM界的AlphaGo:DeepSeek R1 Zero保姆级复现教程来了!

DeepSeek R1 Zero完整复现项目开源,LLM界AlphaGo重现江湖!

2025-02-11 19:32:23 309

原创 还在为鱼眼相机标定头疼?Click-Calib横空出世,精度高、易上手,ADAS系统福音!

本文介绍了Click-Calib:一种鲁棒的环视系统外参标定方法。环视系统(SVS)是高级驾驶辅助系统(ADAS)的重要组成部分,它需要精确的标定结果。然而,传统的离线外参标定方法既繁琐又耗时,这是因为它们严重依赖于物理模式。此外,这些方法主要注重于车辆周围的短距离区域,这导致更远区域中的标定质量较差。为了解决这些局限性,本文提出了Click-Calib,这是一种用于离线SVS外参标定的无模式方法。该方法无需任何特殊设置,用户仅需要点击自然场景中地面上的一些关键点即可。

2025-02-09 21:05:13 668

原创 告别激光雷达?特斯拉之后,GPVL 用纯视觉方案实现 188ms 生成安全轨迹!

本研究提出了一种新颖的3D视觉语言模型的生成式规划方法,用于端到端自动驾驶。

2025-02-08 17:40:53 719

原创 大语言模型遇上自动驾驶:AsyncDriver如何巧妙解决推理瓶颈?

一种用于自动驾驶的异步大语言模型增强闭环框架!

2025-02-07 17:54:06 1117

原创 微软&悉尼大学|UniGraspTransformer:灵巧机器人抓取技术新突破!

UniGraspTransformer通过简化训练流程、创新网络架构和精心设计奖励函数,成功提升了灵巧机器人抓取的性能、扩展性和多样性。在多种实验设置下,它均优于现有方法,展现出强大的泛化能力和抓取能力。未来,UniGraspTransformer有望在实际应用中得到更广泛的推广。一方面,可以进一步优化模型结构和训练算法,提高模型效率和性能,降低计算成本,使其能在资源受限的机器人设备上运行。另一方面,拓展模型在复杂场景下的应用,如在杂乱环境中进行物体抓取,以及与其他机器人任务相结合,实现更复杂的操作。

2025-02-04 12:15:00 1055

一个半月吐血整理,各大厂500+求职者分享,1000+面试真题及经验收

真题题库、行业交流群已准备就绪! 大家三连后,评论区留言获取!

2022-09-16

俞刚-物体检测的过去、现在和未来.pdf

物体检测是计算机视觉的基础环节,对于很多计算机视觉任务的落地和研究都有非常重要的意义。本次分享主要从物体检测的问题切入,讨论物体检测的发展历程,从传统视觉年代,到深度学习时代的变革,到未来的发展趋势。也会分析工业界的落地发展历程,从传统时代的人脸检测到通用的物体检测。

2020-09-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除