自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3999)
  • 收藏
  • 关注

转载 大幅降低内存开销!BitVLA:首个面向机器人操作的1-bit VLA模型

点击下方卡片,关注“具身智能之心”公众号作者丨Hongyu Wang等编辑丨具身智能之心本文只做学术分享,如有侵权,联系删文>>点击进入→具身智能之心技术交流群更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。昨天还在和具身智能之心星球内部的童鞋讨论VLA模型的部署问题,觉得领域关注的还不够,甚至说没有时间去处理部署,因为现在具身还有很多问题没有很好解决,昨天看到了一篇BitVLA,关于部署的,觉得蛮有意思,和大家分享下。更多干货,欢迎加入我们的具身圈子,和

2025-06-14 00:01:35 7

转载 给自己一个机会!欢迎加入自动驾驶之心业务合伙人~

如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们;自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发;更多欢迎添加微信咨询,备注“ 机构/公司 + 自动驾驶合作咨询 ”。QS200以内高校,硕士及以上学历,手握顶会的大佬优先。自动驾驶资源共享(求职、读博、出国留学推荐等);创业项目合作与推荐;

2025-06-13 16:10:59 2

转载 元戎启行周光:携手火山引擎,基于豆包大模型打造物理世界Agent

搭载VLA模型的AI 汽车不仅能 “看见” 道路标识,更能 “读懂” 文字背后的通行规则,解析复杂路况里蕴含的路况信息,让复杂路况决策如 “开卷考试” 般从容。例如,在通过无红绿灯的路口时,VLA模型能提前识别到“注意横穿,减速慢行”的指示牌,即使公交车通行造成动态盲区,VLA也会结合公交车的动作去做出准确的决策。vla模型是一个超级学霸,它通过互联网迅速获取知识并转换成自己的经验,有自己的驾驶“知识库”,对驾驶过程中出现的各类障碍物了如指掌,准确判断潜在危险因素,行驶更安全。语音交互控车:驾驶“应答灵”

2025-06-13 07:30:46 2

转载 也谈Diffusion扩散模型 - 从图像生成到端到端轨迹规划~

条件扩散模型(Conditional Diffusion Models, CDMs)是一类基于扩散过程的生成模型,在生成过程中引入了额外的条件信息,从而能够生成更为符合特定需求的样本,例如生成符合特定文本描述、类别标签或其他先验信息的图像。这里的drift就是头文字D里面的飘移,在极限情况下的飘移动作(横向滑动),该模型能通过基于物理信息的数据驱动动态模型的参数多模态分布,捕捉复杂数据集中的轨迹分布。在常见的扩散模型中,比如基于高斯分布假设的扩散模型,每一层(时间步)的条件概率分布通常都被建模为高斯分布。

2025-06-13 07:30:46 2

原创 端到端SOTA!中山大学GaussianFusion:高斯建模让自动驾驶感知-规划一体化效率飙升~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群论文作者 | Shuai Liu等等编辑 | 自动驾驶之心中山大学团队的工作,开闭环的效果都还不错。利用高斯表征和扩散端到端的方法结合在一起,最终效果比DiffusionDrive要好一些。多传感器融合对于提高端到端自动驾驶系统的性能和鲁棒性至关重要。现有方法主要采用基于注意力的扁平化融合或通过几何变换的鸟瞰图融合。然而,这些方法通常在可解释性上有限或计算开销较大。本文中,

2025-06-12 07:30:29 445

转载 RoboRefer:面向机器人空间推理参照的三维感知视觉语言模型~

尽管预训练视觉语言模型(VLMs)已展现出强大的跨模态理解能力,但现有方法在处理三维场景时仍存在两大局限:一是缺乏对深度信息的有效整合,二是难以应对多步空间推理任务。当前多数研究集中于单步空间理解,如识别物体的相对位置或距离,但对"先定位最近的桌子,再将苹果沿原行列对齐放置"这类需要多阶段推理的任务支持不足。采用分离的RGB和深度编码器,避免共享编码器导致的模态干扰。深度编码器基于SigLIP模型初始化,专门处理深度图中的距离、远近关系等三维线索,在保留RGB编码器预训练能力的同时,增强三维空间感知精度。

2025-06-12 07:30:29 14

转载 马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值。。。

于是Milan Kovac右脚还没迈出大楼,就被工程副总裁拉斯·莫拉维等拦了下来,一起喝了点小酒后,Milan Kovac平息下来,后来缩减了PPT数量,再度向马斯克汇报。在他的离职信中,他首先回顾了自己在特斯拉的十年工作经历,包括连续几代Autopilot计算机和相关软件的迭代升级,以及Optimus成立伊始时的艰难。2022年升任Optimus项目负责人,在他的领导下,特斯拉的人形机器人从概念发展为一款功能齐全的第二代双足机器人,并能在特斯拉工厂中自主工作。没想到的是,这种“灾难”还在继续。

2025-06-12 07:30:29 15

转载 PRCV‘25空间智能与具身智能视觉感知挑战赛正式启动!

定义为:对于成功完成的任务,位姿误差为0,而对于失败的任务,位姿误差为物体最终位置与正确位置范围之间的最短归一化欧氏距离。各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的测试数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,组织方保留追究法律责任的权利。竞赛期间,组委会坚持公开、公平、公正的原则。各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。

2025-06-12 07:30:29 5

转载 这份“技术地图“让你3秒锁定核心干货

星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;这么多的领域问题,需要行业最专业的回答。

2025-06-11 21:47:25 25

转载 【PRCV 2025】空间智能与具身智能视觉感知挑战赛,正式启动!

定义为:对于成功完成的任务,位姿误差为0,而对于失败的任务,位姿误差为物体最终位置与正确位置范围之间的最短归一化欧氏距离。各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的测试数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,组织方保留追究法律责任的权利。竞赛期间,组委会坚持公开、公平、公正的原则。各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。

2025-06-11 15:02:18 76

转载 港科技GVPO:理解GRPO,超越GRPO

DPO其实不一定具有唯一的最优解,换句话说KL约束的reward最大化的解可能只是DPO众多最优解中的一个。DR: 我们提出了GVPO,优势:(1)唯一最优解恰好是KL约束的reward最大化最优解(2)支持多样化采样分布,避免on-policy和重要性采样带来的各种问题。解耦带来的优势:一方面避免了on-policy样本利用率低的缺点,另一方面也避免了现有off-policy方法的重要性采样带来的缺点。GVPO与DPO一样,都利用到了KL约束的reward最大化的解析解。

2025-06-11 07:31:04 31

原创 新一代世界模型!GeoDrive:显式注入空间结构信息,问鼎SOTA(北大&理想)

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『世界模型』技术交流群论文作者 | Anthony Chen等编辑 | 自动驾驶之心由北京大学、伯克利人工智能研究院(BAIR)与理想汽车(Li Auto)联合出品,GeoDrive 是一款面向自动驾驶的新一代世界模型系统。针对现有方法普遍依赖二维建模、缺乏三维空间感知,从而导致轨迹不合理、动态交互失真的问题,GeoDrive 首创性地将三维点云渲染过程纳入生成范式,在每一帧生成中显式注入空间结构信息

2025-06-11 07:31:04 664

转载 车道线论文:Maptr v1/LaneGAP/Maptr v2/Map QR

在自动驾驶场景中,构建矢量化高清地图需要同时关注地图元素的整体结构(如行人过道的轮廓、车道线的走向)以及组成这些结构的精确点集(例如每个地图元素的关键点)。过去传统车道线检测算法一般是基于分割,得到一系列散点,再利用模型进行后处理,将散点组成不同的车道线,通常需要聚类,匹配等算法,这个过程后处理一般比较重,往往需要2-3个全职的工程师维护这个过程,还伴随着很多的超参数,通常需要很大的维护量。然后,通过一些启发式的后处理步骤(如细化算法)从分割图中提取车道的骨架,最后将这些细化后的像素骨架连接成车道图。

2025-06-11 07:31:04 32

转载 即插即用!PM-Loss显著改善前馈3DGS质量~

通过从预训练的3D重建模型中提取点图所嵌入的几何先验,我们的方法能够缓解由反投影深度引起的不连续性,并显著提升前馈式3DGS模型的3D点云质量和渲染新视角的效果。点图在基于回归的3D重建中的成功启发我们将其作为强先验,以减少基于深度图的前馈式3DGS中的伪影。新视角合成(Novel View Synthesis, NVS)是计算机视觉和图形学中长期研究的课题,近年来随着神经渲染技术的进步,尤其是3D高斯泼溅(3D Gaussian Splatting, 3DGS)的发展,这一领域受到越来越多的关注。

2025-06-10 14:25:51 27

转载 Waymo S4-Driver:告别监督,海量无标注数据解锁3D时空推理能力~

为了缩小这一差距,如图1b所示,以往的方法使用多任务学习,将多种感知和预测任务纳入训练和推理中,或者采用监督感知预训练,利用预训练的自动驾驶感知模型作为视觉token。在没有前面的感知和预测任务的情况下,以自监督方式微调的原始 PaLI 在运动规划中的表现还可以,但并不理想(见图 3)。为了解决非最优的表达形式的障碍,作者提出了一种新颖的稀疏体积表示,能够聚合来自多视图和多帧图像的视觉信息,提升了模型在运动规划上的3D时空推理能力,并无损的保留了MLLMs预训练视觉嵌入中的世界知识。

2025-06-10 07:30:36 17

原创 π0如何用于自动驾驶:CVPR‘25端到端亚军方案解读,清华&博世DiffVLA!

感知模块的训练分为两个阶段。我们在navsim-v2数据集上训练和评估我们的方法,该数据集通过引入反应性背景交通参与者和逼真的合成多视角相机图像,提供了全面的闭环鲁棒性和泛化能力评估。:我们采用了VLM Encoder 以及Perception Encoder模块,利用多视角图像与基础导航指令生成高级驾驶决策(减速,避让,绕行,变道),全面捕捉交通场景的显式与隐式特征,提升障碍物理解与道路结构分析能力,为后续扩散规划提供精准语义引导,减少语言指令和物理世界的割裂,降低生成模型的动作风险失控。

2025-06-09 07:30:49 601

原创 π0如何用于自动驾驶:CVPR‘25端到端亚军方案解读,清华&博世DiffVLA!

感知模块的训练分为两个阶段。我们在navsim-v2数据集上训练和评估我们的方法,该数据集通过引入反应性背景交通参与者和逼真的合成多视角相机图像,提供了全面的闭环鲁棒性和泛化能力评估。:我们采用了VLM Encoder 以及Perception Encoder模块,利用多视角图像与基础导航指令生成高级驾驶决策(减速,避让,绕行,变道),全面捕捉交通场景的显式与隐式特征,提升障碍物理解与道路结构分析能力,为后续扩散规划提供精准语义引导,减少语言指令和物理世界的割裂,降低生成模型的动作风险失控。

2025-06-09 07:30:49 963

转载 深度好文!一文看懂目前端到端自动驾驶算法实现原理

多目标多头蒸馏模块:我们看到轨迹模仿学习之后的轨迹还过了其他的MLP,这就是其他头,它的目标也是不一样的,第一个是跟碰撞相关的,第二个是跟行驶区域相关的,第三个是跟舒适度相关的,也就是说不同的评判指标都有一个teacher,之前的模仿学习就是人类的teacher,那么这些teacher是怎么来的呢?本文作者提出的新的范式,就是规划模块是多模的输出,同时,目标也是多样性的,即不仅是GT的轨迹也同时引入了更多的正样本,由不同的专家给出的。消融实验证明各个模块都是不可或缺的,然后再去对比单个模块的性能。

2025-06-08 00:01:59 96

转载 ICRA‘25 | 基于扩散的生成模型实现自动驾驶中3D占用预测

从视觉输入中准确预测3D占用网格对于自动驾驶是至关重要的,但是当前判别式方法难以处理带有噪声的数据、非完整的观测结果以及3D场景中固有的复杂结构。本文大量实验表明,基于扩散的生成模型优于最先进的判别式方法,它提供了更逼真、更准确的占用预测结果,特别是在遮挡或者低能见度区域。此外,改进的预测结果明显有利于下游规划任务,突显了本文方法在现实世界自动驾驶应用中的实际优势。本文实验证明了Diffocc在具有挑战性的场景中具有卓越的性能,它提供了更准确、更逼真的预测结果。本文方法生成的占用特征也有利于下游规划任务。

2025-06-08 00:01:59 23

转载 ICRA‘25 | 基于扩散的生成模型实现自动驾驶中3D占用预测

从视觉输入中准确预测3D占用网格对于自动驾驶是至关重要的,但是当前判别式方法难以处理带有噪声的数据、非完整的观测结果以及3D场景中固有的复杂结构。本文大量实验表明,基于扩散的生成模型优于最先进的判别式方法,它提供了更逼真、更准确的占用预测结果,特别是在遮挡或者低能见度区域。此外,改进的预测结果明显有利于下游规划任务,突显了本文方法在现实世界自动驾驶应用中的实际优势。本文实验证明了Diffocc在具有挑战性的场景中具有卓越的性能,它提供了更准确、更逼真的预测结果。本文方法生成的占用特征也有利于下游规划任务。

2025-06-08 00:01:59 18

转载 ICRA‘25 | 基于扩散的生成模型实现自动驾驶中3D占用预测

从视觉输入中准确预测3D占用网格对于自动驾驶是至关重要的,但是当前判别式方法难以处理带有噪声的数据、非完整的观测结果以及3D场景中固有的复杂结构。本文大量实验表明,基于扩散的生成模型优于最先进的判别式方法,它提供了更逼真、更准确的占用预测结果,特别是在遮挡或者低能见度区域。此外,改进的预测结果明显有利于下游规划任务,突显了本文方法在现实世界自动驾驶应用中的实际优势。本文实验证明了Diffocc在具有挑战性的场景中具有卓越的性能,它提供了更准确、更逼真的预测结果。本文方法生成的占用特征也有利于下游规划任务。

2025-06-08 00:01:59 17

转载 自动驾驶领域正在发生哪些有趣的事情?

星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;规划控制、3D检测、BEV感知、世界模型、跨模态蒸馏。

2025-06-07 00:01:09 148

转载 自动驾驶激光雷达之间会相互干扰吗?

但好在,无论是频率和时序的隔离、编码与解码的抗干扰手段,还是车联网的协同调度和后端智能算法,各种对策正在不断成熟和落地。但如果路上出现了多台近距离行驶且都在发射相似波长、相似调制方式的激光,有时一个设备发出的光脉冲会恰好在另一台接收器的采样窗口内被误当成自身回波,产生虚假的测距结果。扫描方向如果对不上角度,彼此发射的光束就会在空间中重叠,一个设备的光束就恰好也在另一个设备的视野内被接收。的出现,为空间隔离提供了更多可能,通过电子方式改变光束指向,在保证关键方向高分辨率的同时,对其它方向的。

2025-06-07 00:01:09 36

转载 CVPR‘25 | SOLVE:视觉语言和端到端网络在自动驾驶中的协同作用

在nuScenes数据集上对本文方法进行评估,结果表明,本文方法在轨迹预测准确性方面具有显著提升,从而为更鲁棒、更可靠的自动驾驶系统铺平了道路。本项工作引入了SOLVE,这是一种促进视觉语言模型(VLM)和端到端(E2E)模型之间协同作用的新框架,强调了将知识和规划相结合。为了应对VLMs以自回归方式直接生成细粒度轨迹所面临的挑战,本文提出了轨迹思维链(T-CoT),它使用预定义的轨迹库和链式推理来逐步细化轨迹。此外,本文还提出了一种时间解耦策略,以促进VLM和E2E模型之间的协作。

2025-06-07 00:01:09 19

转载 CVPR‘25 | SOLVE:视觉语言和端到端网络在自动驾驶中的协同作用

在nuScenes数据集上对本文方法进行评估,结果表明,本文方法在轨迹预测准确性方面具有显著提升,从而为更鲁棒、更可靠的自动驾驶系统铺平了道路。本项工作引入了SOLVE,这是一种促进视觉语言模型(VLM)和端到端(E2E)模型之间协同作用的新框架,强调了将知识和规划相结合。为了应对VLMs以自回归方式直接生成细粒度轨迹所面临的挑战,本文提出了轨迹思维链(T-CoT),它使用预定义的轨迹库和链式推理来逐步细化轨迹。此外,本文还提出了一种时间解耦策略,以促进VLM和E2E模型之间的协作。

2025-06-07 00:01:09 18

转载 端到端这个坑,还有哪些方向可以发论文?

解决只了解零散知识,没有清晰的体系的问题,帮助同学系统掌握指定方向的重点理论知识,同时做适当拓展,让学员对指定方向内容形成更清晰的体系;本课题旨在设计并实现一种多任务融合、多模态融合的自动驾驶感知算法,综合利用各类传感器的优势,实现高精度、高可靠性的端到端自动驾驶。获得对经典及前沿的典型论⽂的分析⽅法,理解重点算法与原理、清晰不同算法的优劣势,也促使⾃⼰对研究idea的思考;A:不可以,老师不会指导非课程安排的方向,但如果方向差不多是可以做迁移的,学完我们的课用自己的数据集进行训练。

2025-06-06 19:52:35 28

转载 小鹏汽车自动驾驶技术分析

自2019年推出XOS 1+版本的LCC车道居中控制,到2020–2022年的XOS 2~3+高速NGP,再到2023年XOS 4+的城市无图NGP,再到2024年XOS 5+端到端XBrain架构的全场景覆盖,小鹏通过每一次OTA推送都将最新算法、策略与体验带给用户。与竞品的单次静态更新不同,小鹏实现了对算法参数、规则网、模型权重等多维度的动态调整与优化,大幅提升了系统对多变道路环境与极端工况的适应能力,并通过实车数据持续闭环验证与迭代,确保功能稳定性与安全性。从2024年Q4开始,

2025-06-06 07:30:25 94

转载 当VLM学会临时抱佛脚:清华新框架推理能力超越GPT-4o!

该研究通过创新的数据生成流程和两阶段训练范式,使模型能够像智能体一样,在复杂驾驶场景中动态决策并按需调用外部工具,极大地提升了自动驾驶VLM的智能与鲁棒性,并在多个指标上取得了SOTA性能。最后,一个单独的LLM审核每条数据的准确性和逻辑一致性,并删减步骤不匹配或结论不受支持的样本,从而生成一个高质量的语料库,将明确的工具使用与连贯、可验证的推理相结合。,有效地利用结构化奖励。具体而言,为了指导模型实现准确、可解释且工具感知的推理,本文设计了一个结构化的奖励函数,包含三个主要部分,如图4所示。

2025-06-06 07:30:25 123

转载 稳操方向盘!MomAD:动量感知规划的端到端自动驾驶新SOTA(CVPR‘25)

具体而言,在nuScenes数据集中,与SparseDrive相比,MomAD在4秒、5秒和6秒的L2误差分别降低了0.09米(5.14%)、0.34米(14.66%)和0.50米(16.95%),碰撞率分别降低了0.04%、0.11%和0.20%,TPC(轨迹预测一致性)分别降低了0.14米(10.53%)、0.21米(12.65%)和0.38米(19.10%)。难点:现有方法在处理复杂场景时,往往依赖于一次性轨迹预测,缺乏时序一致性和对动态环境的适应性,容易导致轨迹预测的不稳定和碰撞风险增加。

2025-06-06 07:30:25 26

转载 稳操方向盘!MomAD:动量感知规划的端到端自动驾驶新SOTA(CVPR‘25)

具体而言,在nuScenes数据集中,与SparseDrive相比,MomAD在4秒、5秒和6秒的L2误差分别降低了0.09米(5.14%)、0.34米(14.66%)和0.50米(16.95%),碰撞率分别降低了0.04%、0.11%和0.20%,TPC(轨迹预测一致性)分别降低了0.14米(10.53%)、0.21米(12.65%)和0.38米(19.10%)。难点:现有方法在处理复杂场景时,往往依赖于一次性轨迹预测,缺乏时序一致性和对动态环境的适应性,容易导致轨迹预测的不稳定和碰撞风险增加。

2025-06-06 07:30:25 26

转载 稳操方向盘!MomAD:动量感知规划的端到端自动驾驶新SOTA(CVPR‘25)

具体而言,在nuScenes数据集中,与SparseDrive相比,MomAD在4秒、5秒和6秒的L2误差分别降低了0.09米(5.14%)、0.34米(14.66%)和0.50米(16.95%),碰撞率分别降低了0.04%、0.11%和0.20%,TPC(轨迹预测一致性)分别降低了0.14米(10.53%)、0.21米(12.65%)和0.38米(19.10%)。难点:现有方法在处理复杂场景时,往往依赖于一次性轨迹预测,缺乏时序一致性和对动态环境的适应性,容易导致轨迹预测的不稳定和碰撞风险增加。

2025-06-06 07:30:25 9

转载 ACL 2025 | 大模型提示词不是「随便写」!

有效提示是信息“选择器”,其核心功能是从模型的隐藏状态 ( h ) 中提取与任务最相关的关键信息,并转化为文本形式的中间步骤 ( o ),以指导后续计算。像“逐步思考”这样的通用提示,相当于让模型在一个巨大的“提示超市”里盲目挑选工具。比如,同样是数学题,有的需要分步加减,有的需要找规律,通用提示无法针对具体任务优化步骤,导致模型可能选到低效甚至错误的方法。比如,计算星期几的问题中,正确提示会引导模型关注“余数”和“周期循环”,而错误提示可能让它纠结于“今天的天气”等无关信息,导致答案空间混乱。

2025-06-05 15:49:00 89

转载 多模态大模型入门指南:从通用大模型到自动驾驶进化之路~

在整体上对多模态大模型有一定了解后,我们会进一步聊聊实际的应用场景,让大家对未来可能从事的工作方向和工作内容有一定的了解,最后老师会介绍咱们课程的整体框架及预期的实战学习成果。作为多模态大模型下游应用的基石,可以说没有通用多模态大模型的蓬勃发展,就不会有当下大模型应用百花齐放的局面。这一章老师将会带领同学们真正进入多模态大模型的世界。这里推荐下自动驾驶之心的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。

2025-06-05 07:30:58 38

转载 三维重建大观!从渲染到3DGS三维高斯泼溅~

目标检测、语义分割、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流。3DGS(3D Gaussian Splatting,3D高斯溅射)本质是用一系列三维概率小球来表示空间中的点,这个点代表的东西的位置,最大概率在小球正中间,最小概率在小球的边缘。

2025-06-05 07:30:58 148

转载 闭环规划暴力提升19%!中科院ReasonPlan:闭环自动驾驶的统一场景预测与决策推理~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『多模态大模型』技术交流群论文作者 | Xueyi Liu等编辑 | 自动驾驶之心中科院团队的工作,提出了名为ReasonPlan的算法,在Bench2Drive上取得了还不错的效果。主要有两点值得借鉴:自监督的下一场景预测任务和监督决策思维链过程,同时输出结果具备一定的空间理解能力。由于多模态大语言模型(MLLMs)具有强大的视觉-语言推理和泛化能力,在端到端(E2E)自动驾驶领域引起了广泛关注。然

2025-06-05 07:30:58 44

转载 解锁视觉空间智能强大潜力!视觉空间智能多模态模型Spatial-MLLM~

这种设计既保留了语义信息的完整性,又通过视觉几何模型弥补了空间结构感知的短板,使模型能够在无深度图或点云等额外3D数据的前提下,实现良好的空间感知与推理能力。实验结果显示Spatial-MLLM在仅输入视频数据(不需要额外3D信息)的情况下,大幅领先于其他视频输入的模型,甚至接近或超过了需要3D信息输入的专用模型的性能。,从有限的视频帧中提取最具空间价值的信息。用简单的MLP结构,将语义编码器和空间编码器分别提取出的特征进行融合,得到统一的视觉特征表示,从而为大语言模型(LLM)提供综合的空间和语义信息。

2025-06-05 07:30:58 33

转载 自动驾驶前沿论文速递 | 扩散模型、Gaussian、VLM等~

静态VLM :采用冻结的CLIP模型(ViT-bigG-14)对鸟瞰图(BEV)帧进行嵌入,通过固定“当前状态”(present)与“理想状态”(ideal)文本提示,生成对比语义奖励(Contrastive Semantic Reward):提出基于快速傅里叶变换(FFT)的噪声分类算法(公式2-3),精准识别多径效应(Multipath Effects)、接收机饱和(Receiver Saturation) 和散斑噪声(Speckle Noise)(图3)。欢迎加入『自动驾驶之心知识星球』......

2025-06-04 20:52:04 65

转载 自动驾驶转具身智如何准备?

我们也创办了一个具身智能全栈学习社区:具身智能之心,平时分享了很多具身智能相关的算法、数据采集、软硬件方案等。主要方向涉及VLA、VLN、Diffusion Policy、强化学习、机械臂抓取、位姿估计、机器人仿真、多模态大模型、芯片部署、sim2real、机器人硬件结构等,日常也分享了很多行业与招聘相关内容。从算法维度上看,具身智能领域基本延续了机器人和自驾的一些算法,比如SLAM、规划控制、模型训练与微调方式、数据生成方式、大模型。当然也有很多具体的任务不太一样,比如数据采集方式、重执行硬件与结构。

2025-06-04 11:13:56 18

转载 吉大&哈佛最新!Agentic Robot:具身智能体中VLA模型的类脑框架

这里提出Agentic Robot,一个受大脑启发的框架,通过标准化动作流程(SAP)解决这些限制:SAP是一种新的协调协议,用于管理操作任务中组件之间的交互。受这些见解的启发,这里设计了Agentic Robot,一个受大脑启发的框架,引入了标准化动作流程(SAP):一种专门为具身操作任务设计的新型协调协议。SAP定义了完整的智能体循环,通过定义良好的接口和标准化的信息交换、进度监控和错误恢复协议,管理我们的三个专门组件(规划器、执行器和验证器)在任务执行过程中的协调。

2025-06-04 11:13:56 89

转载 四个月转行到自动驾驶规划控制岗位需要准备什么?

传统的自动驾驶算法框架是定位=>感知=>预测=>决策规划=>控制的链路,Planning会接收预测模块对社会车未来行驶轨迹的预测结果进行决策规划,但预测是在规划的上游,没有办法给出考虑到当前帧自车决策结果的预测,因此理论更优的做法是实现自车和他车的联合预测规划,也就是通过一个模型同时计算出他车和自车的轨迹。每类算法的优缺点是什么?网上已有大量的开源项目和理论基础资料,宁远老师会选择合适的资料辅助讲解,为学员提供决策规划框架优化的细节,目标只有一个:让学员具备解决复杂问题的思路,掌握实际量产工作的能力!

2025-06-04 07:30:40 249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除