自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4821)
  • 收藏
  • 关注

原创 TALO: 支持任意3D基础模型、任意相机配置的室外重建系统

相比之下,TALO 能够更好地保持正确的行进方向,从而获得显著更低的 RRE。TALO 通过引入在空间上均匀分布、在时间上全局传播的稀疏控制点,跨子地图累积并融合多视角观测,结合薄板样条(Thin Plate Spline,TPS)变换模型,实现对子地图精细且空间自适应的几何对齐,显著增强全局一致性。与此同时,TALO采用一种点云无关的子地图注册策略:不依赖噪声较大的点云,而是通过对重叠帧之间的相对相机位姿进行平均来对齐子地图间的坐标系,从而获得对基础模型预测的几何噪声具有天然鲁棒性的轨迹估计。

2026-01-08 17:05:09 462

转载 长安年终奖,四个月起步......

7日,长安汽车不实信息举报中心发文称,针对近期网络上出现的“长安汽车取消年终奖”等不实信息,公司严正声明如下:2025年,长安汽车整体经营态势稳健,公司已根据年度经营实绩,按照激励标准制定并推进相应激励计划,切实保障员工权益,助力企业可持续发展。虽然该车企年度销量目标未达标,但销量完成率达到了97%,有媒体据此推断,取消年终奖的车企是长安汽车,且在社交平台上,疑似有长安汽车员工证实年终奖取消,此事引发热议。还有网友表示:“小丑竟是我自己”、“长安汽车,对不起,我承认我之前笑的太大声了”。

2026-01-08 13:57:55

转载 本周六!一场关于自动驾驶L4的圆桌探讨:通向L4之路已经清晰?

目前在新石器无人车负责城市配送场景下自动驾驶技术研发落地,在自动驾驶、人工智能、高性能计算、系统软件开发领域有15年以上的研发经验。主持研发的L4级城市物流配送无人车已经在物流配送领域获得广泛应用,在全国300多个城市、海外10多个国家已经开展商业化运营,累计交付15000辆无人车,总行驶里程超过6000万公里。现兼任中国人工智能学会、中国自动化学会、中国公路学会相关专委会委员、东南大学研究生校外导师、上海交通大学产业顾问专家、中物联“中国物流科技50人智库”专家、全球华人汽车精英组织成员。

2026-01-08 09:53:16

转载 理想在世界模型方向,布局了这些工作......

这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案例。每一种流派在当前业界的应用,能解决什么问题,处于自驾的哪个环节。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。我们从世界模型的场景表征开始,进一步扩展到Transformer、BEV感知等,在这一章老师会非常细致的带大家学习世界模型涉及到的背景知识,也为后续章节的展开奠定基础。

2026-01-07 17:42:22 11

原创 小米&杭电提出ParkGaussian:业内首个泊车场景重建算法,效果还不错

特征级监督虽然提升了渲染分数,但仍无法恢复可靠的车位几何结构,这表明感知模型和重建模型的优化目标并不一致,它们的特征分布差异显著,导致重建几何偏离了感知网络所需的结构;本文的完整车位感知策略通过融合教师-学生加权并施加分布对齐约束,在两个场景中均取得了最佳结果,不仅实现了最高的渲染质量,还通过使重建与感知模型对齐,显著提升了下游任务的精确率和召回率,这表明将结构先验与预测一致性相结合对于稳健的停车感知重建至关重要。从视觉上可以观察到,本文的方法既保持了全局场景的高保真重建,又准确再现了停车位的细粒度结构。

2026-01-07 17:42:22 641

转载 AI Day直播 | 自动驾驶中的渐进鲁棒世界模型全面盘点(一作分享)

首先概述了DWM的基础原理及其在自动驾驶中的独特价值,随后按技术范式、架构设计及下游应用场景,对现有方法进行了体系化分类;进而创新性地提出递进式鲁棒性分析框架,将DWM鲁棒性的发展历程划分为三个明确阶段(鲁棒性1.0至鲁棒性3.0)。驾驶世界模型(DWM)因其能够显式建模车辆动力学特性、将多模态传感器输入融合为统一表征,并支持长时序推理的核心能力,已引发学界与业界的广泛关注——为提升自动驾驶系统的安全性与鲁棒性展现出巨大潜力。北京交通大学联合澳门大学、哈工大、新加坡南洋理工、清华、北航、小米汽车及。

2026-01-07 09:07:12 12

转载 英伟达Alpamayo再进化!反事实推理VLA,安全性能提升很可观

本文提出反事实视觉-语言-动作模型(CF-VLA),这是一种具备自反思能力的VLA框架,能够让模型在执行动作前对规划动作进行推理和修正。元动作序列示例见图5。本节将介绍反事实视觉-语言-动作模型(CF-VLA),该模型为VLA配备了自反思循环,能够对自身预测的动作进行推理,并利用该推理结果修正规划。3)推理质量:元动作IOU(Meta-Action IOU)衡量预测元动作与真实元动作在64×3个区间(纵向、横向、车道级)上的对齐程度,对于CF-VLA,报告自反思后的IOU(即更新后元动作的IOU);

2026-01-07 09:07:12 8

转载 简历直推 | 清华大学全国重点实验室招聘工程师/博后/实习生(世界模型/重建/感知等)

构建融合物理先验、时序一致性与行为预测能力的世界模型架构,实现复杂驾驶场景的理解、预测与生成,支撑自动驾驶系统的感知、预测、规划一体化能力建设,推动端到端自动驾驶技术的工程化应用。研究与复现前沿多模态大模型(VLA/VLM/WFM)与生成式算法,包括Transformer、Diffusion、Neural Fields等,完成论文复现、理论分析与工程级实现;有车端模型部署经验者优先;构建多模态特征融合与对齐体系,实现图像、点云、深度、传感器数据、动作序列等跨模态信息的高效对齐、编码与融合;

2026-01-06 14:52:26 22

转载 L4数据闭环总结 | 面向物理 AI 时代的数据基础设施

在 FSD V12 的技术分享里,几乎不再强调人工写的规则,而是反复展示他们如何把大规模车队当成一个矿,从中挖掘“特征片段 (Characteristic Clips)”,构建自动评分系统,然后喂给模型。是产品定义的精准与克制,是研发面对 Corner Case 的日夜攻坚,是测试团队对安全底线的严防死守,更是一线运营同学在风雨中传回的最真实反馈。这对应了 Neuralink 等公司的愿景:未来的人类不再是 AI 的旁观者,而是通过高带宽接口,直接将人类的“意图”和“价值观”注入 AI。

2026-01-06 08:28:04 30

转载 李弘扬团队最新!SimScale:显著提升困难场景的端到端仿真框架......

现实道路中的绝大多数驾驶片段都是重复而安全的“常态行为”,真正决定策略能力上限的高风险、长尾、极端场景却往往难以遇见,更难以大规模收集。针对这些问题,SimScale应运而生,SimScale探索了在scalable的3DGS交互式仿真下,生成reward、recovery等多种数据,进行联合训练以最大化现有训练数据的利用效率。近年来,大模型领域背靠 Data Scaling 取得了前所未有的突破,但到了自动驾驶,这套方法却突然失灵了。不是因为模型不够大,而是现实世界根本给不了足够多的关键场景。

2026-01-06 08:28:04 19

转载 田渊栋的2025年终总结:关于被裁和26年的研究方向

因为之前我做表征学习(representation learning)的分析,虽然能分析出学习的动力学过程,看到模型出现表征塌缩的原因,但究竟学出什么样的表征,它们和输入数据的结构有什么关系,能达到什么样的泛化能力,还是个谜团,而通过分析Grokking这个特征涌现的现象,从记忆到泛化的突变过程,正好能解开这个谜团。而RL则因为用on-policy的数据进行训练,权重的主分量不变,改变的只是次要分量,反而能避免灾难性遗忘的问题,而改变的权重其分布也会较为稀疏(特别在bf16的量化下)。

2026-01-06 08:28:04 50

转载 清华何雷老师的讲座分享:智能驾驶的 「数智底座」

点击下方卡片,关注“自动驾驶之心”公众号方向学习路线。

2026-01-05 17:30:00 13

转载 拆解理想在世界模型方向的工作

这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案例。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。通过重建+生成,既可以做云端的数据生成,也可以用于闭环仿真和测试,目前来看理想没有在车端深入的利用世界模型的能力,即不是利用世界模型的预测能力直接输出自车轨迹,但也探索了这方面的工作(World4Drive)。理想对世界模型的定义在。

2026-01-05 17:30:00 35

转载 78ms的VLA推理!浪潮信息开源自驾加速计算框架,大幅降低推理时延

与传统模块化系统相比,VLA大模型对数据通信的压力呈指数级增长。这不仅消除了逐个Token产出的逻辑依赖,释放了异构硬件的并行计算潜能,更确保了模型在较低的推理频率下,依然能输出高频、平滑、连续的控制序列。实测数据显示,异构算力调度框架解决了VLA大模型在车端的资源争用与响应阻塞,实现了执行效率与确定性的双重跨越,逻辑响应时延降低 31%,核心感知模型推理时延降低 30%,VLA 推理链路进一步压缩 28%,端到端时延稳定性显著提升,推理时延由108ms缩减至78ms,彻底消除算力空转。

2026-01-05 11:30:58 33

原创 英伟达用千万Clip搞定了反事实推理VLA!安全指标提升了20%......

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Zhenghao等编辑 | 自动驾驶之心近几个月,反事实推理的工作多了起来。现有的思维链在推理中无法纠错,模型会沿着错误的逻辑推理出一个看似合理的结果。在大模型领域,也有一些工作在尝试解决这个问题。业内像理想的ReflectDrive通过离散扩散的反思机制实现安全轨迹生成。今天自动驾驶之心为大家分享的英伟达&UCLA&斯坦福的工作Counterfactual VLA

2026-01-05 11:30:58 761

转载 算法工程师的真正分水岭:敢决策、敢担责、敢迈大步

这些年,我见过太多技术能力并不差的算法工程师,在模型、代码、实验层面都足够扎实,却始终卡在一个看不见的天花板下。短期看,这些行为数据稳定、汇报安全、很少出事故,但长期看,结果几乎是确定的:被锁死在自己的技术舒适区里。做 NLP / RAG,是保守使用传统检索策略, 还是引入向量检索、蒸馏、大模型能力,重构链路?这类决策,本质上都是在回答一个问题:你是为“看起来正确”负责,还是为“真实有效”负责?做模型优化,是继续调参、补特征, 还是重构特征工程、训练范式,解决根因问题?这是搜索领域最典型的“安全区”。

2026-01-05 08:34:50 7

转载 帝国理工VLA综述:从世界模型到VLA,如何重构自动驾驶(T-ITS)

我们希望这篇发表在 T-ITS 上的顶刊综述,能为正在探索 DriveLaW、Gaia-1 等前沿技术的开发者们,提供一份扎实且前瞻的理论指南。这些模型不仅能生成逼真的驾驶视频,还能保持长时间的物理一致性(Physical Consistency),是实现“数据飞轮”的关键技术。本综述不仅是对过去两年技术爆发的总结,更是一份面向未来的路线图。的崛起——不再是简单的多模态融合,而是将视觉与语言作为协同推理流,直接输出规划轨迹。本综述精准切中了当前自动驾驶社区最关心的三大技术命题,构建了清晰的技术象限。

2026-01-05 08:34:50 64

转载 突发,小鹏副总裁离职......

同年,小鹏 G9 上市失利,小鹏重新调整产品布局,陈永海转而负责产品中心。今年小鹏汽车全年交付429,445辆,同比增长125.94%,达成率122.7%,虽12月交付量(37,508辆)未达四季度指引,但全年增长势头强劲。接棒的王凤英曾在长城汽车任职 31 年,于 2023 年加入小鹏担任总裁,负责产品、营销、销售及供应链等业务。据云见 Inisight报道,小鹏产品中心副总裁陈永海已于 2025 年 12 月离职,其职务暂由总裁王凤英接替。更多行业的第一手动态,欢迎加入自动驾驶之心知识星球~

2026-01-04 14:31:04 33

原创 超越DriveVLA-W0!DriveLaW:世界模型表征一统生成与规划(华科&小米)

推理时,DriveLaW-Video 首先将历史帧、文本提示等编码为潜在特征并进行去噪生成视频,同时,其中间层的潜在特征被提取出来作为关键的感知信号,连同自车状态、高层指令一起输入给 DriveLaW-Act,后者通过流匹配(Flow Matching)生成最终的平滑轨迹。一个完全预训练的生成器比没有经过驾驶域预训练的生成器带来了 +3.2 PDMS 的提升,这表明更大的语料库加深了模型对驾驶物理规律的掌握,并转化为更强的规划能力,表现出明显的规模定律(scaling law)。然而,现有系统在面对。

2026-01-04 08:51:48 610

转载 首次!比亚迪超越特斯拉,全球电动汽车销量第一

全年交付量为163.6万辆,较2024年的179万辆明显下降,也低于市场预期的约165万辆。1月1日发布的数据显示,比亚迪2025年总体新车销量超460万辆,同比增长约8%,其纯电动汽车新车销量超225万辆,同比增长约28%。全年交付429,445辆,同比增长125.94%,达成率122.7%,虽12月交付量(37,508辆)未达四季度指引,但全年增长势头强劲。与此同时,比亚迪内部也在抓紧智能驾驶的研发进度,25年二月初发布天神之眼,打响了智驾平权的第一枪。据自动驾驶之心了解到的信息,

2026-01-03 17:23:10 232

转载 Momenta和华为智驾谁能胜出?

这种将核心应用能力“预置化”的做法,使得华为海思在 IPC SoC 领域建立了一种基于“效率与成本”的行业统治力,让中国安防产业在全球范围内实现了从“跟随”到“主导”的跨越。这意味着下游的安防器材厂商不仅要购买昂贵的芯片,还需要配备庞大的软件团队,在底层的 DSP 上进行极具挑战性的视频编解码开发和图像算法调优。通过我和车企交流,基本上,要是在车企上部署软件,特别是出货量大的车企,其对软件供应商的提出的压榨要求,还是令人发指的。海思的真正高明之处,在于其在芯片端直接打包赠送了原本昂贵的算法。

2026-01-02 16:06:35 70

转载 智能汽车产业链全景图(2025年12月版)

本文只做学术分享,如有侵权,联系删文。>>自动驾驶前沿信息获取。

2026-01-01 11:03:08 92

转载 某头部具身公司创始团队的“裂痕”

不过,大多数是类似兼职的方式,一边在高校做着科研,一边拿着具身公司的股份,并没有All in进去,甚至有一些认为学术前景更重要。比如,今年订单爆了,但因为创始团队之前都是做软件算法的,缺乏具身本体的制造能力,导致每个月手搓的产量只能满足一半订单需求,量产派创始人就亲自带队”头拱地“的卷制造。目前来看,对公司具有主导权的是量产派,量产派的股份多,而学术派的股份少。一位投资机构的朋友表示,以前机构都是非常忌惮这种兼职行为的,但因为机构都在哄抢具身的投资机会,所以就没那么计较了,不过目前来看这会引发一系列问题。

2025-12-31 14:25:03 39

转载 为什么蔚来会押注世界模型?

这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案例。每一种流派在当前业界的应用,能解决什么问题,处于自驾的哪个环节。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。我们从世界模型的场景表征开始,进一步扩展到Transformer、BEV感知等,在这一章老师会非常细致的带大家学习世界模型涉及到的背景知识,也为后续章节的展开奠定基础。

2025-12-31 14:25:03 32

转载 L4数据闭环最重要的第一步:选对整个组织的LossFunction

前言:看到一个问题有感而发写了一个关于数据闭环的整体的文章,发现引起了很多同学的共鸣,那就再写一写里面我认为很关键的点(踩坑记录),希望也给还在做自动驾驶的各位同学一些不一样的思路。感知 / 规控 / 地图 / 硬件 / 运维 / 运营等团队,基于这些片段更新自己的「参数」:模型、规则、阈值、SOP;每万公里急刹 / 画龙 / 停车不走 / 险情,在什么场景抬头,是可以拆解和优化的;从感知 / 预测 / 规控 / 硬件 / 地图 / 环境 / 运营多个维度做复盘;

2025-12-31 08:31:27 63

原创 滴滴最近在加速了!ColaVLA:潜在认知推理的分层并行VLA框架(清华&港中文&滴滴)

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Qihang Peng等编辑 | 自动驾驶之心滴滴最近开始加速算法预研了,清华&港中文mmlab&滴滴最新的VLA工作 - ColaVLA。很有意思的一篇工作,提出“Cognitive Latent Reasoner”实现驾驶场景理解、关键目标识别、Latent Rethinking和驾驶决策的生成,“Hierarchical Parallel Planner”利用多

2025-12-30 17:17:51 960

转载 正式开课!三个月搞懂自动驾驶世界模型技术栈

这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案例。每一种流派在当前业界的应用,能解决什么问题,处于自驾的哪个环节。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。我们从世界模型的场景表征开始,进一步扩展到Transformer、BEV感知等,在这一章老师会非常细致的带大家学习世界模型涉及到的背景知识,也为后续章节的展开奠定基础。

2025-12-30 17:17:51 62

转载 摸底地平线HSD一段式端到端的方案设计

这么做的好处很多,可以降低训练收敛的难度且推理时去噪的次数需求更少(指和没有这么做的那些算法,对DDIM的去噪次数的需求,现在也有很多生成算法在研究更少的推理去噪次数)。轨迹Ranker算是部分解答了我DiffusionDrive轨迹稳定性的疑惑,引入多个metric scores,也给了下游更多发挥的空间,但我觉得可以进一步设计成时序的,提升选择的稳定性。从这个观察出发,文中。总的来说,地平线的这两篇文章都非常出色,也给从业者带来了很多思考和引导,期待更多更好的文章,也期待更优秀的产品。

2025-12-30 08:27:59 77

转载 搞自驾这七年,绝大多数的「数据闭环」都是伪闭环

在车辆行驶过程中,可以下发挖数脚本,这些脚本跑在车端沙箱环境中,由于性能限制,我们只在车辆不再执行自动驾驶任务的时候执行脚本,沙箱环境与正式线上算法解耦,不会影响主流程安全和实时性;据我能接触到的一圈国内玩家,大家嘴里的“数据闭环”,绝大多数还是各个算法团队内部的“小闭环”,离当年 PPT 里畅想的那种“数据直接解决问题”的大闭环,还有好几层台阶。真正的数据闭环,是“问题会自己长脚走完从『被发现』到『被解决并被验证』的路径”,人是设计规则和做决策的,不是不断重复体力劳动的。路面坑洼、塌陷、突出结构;

2025-12-29 17:17:00 88

转载 从自驾到具身:更现实的商业化路线不是一直等「完美单体」

语言这一层的价值,不是“让机器人能聊天”,而是让这些常识、规则、偏好、隐含约束能被表达、被检索、被推理、被对齐,从而在没见过的家庭、没见过的摆放方式、没见过的设备型号面前仍能泛化。把这条链路看清楚,再回头看“从自动驾驶到具身智能”,会发现变化的不是“有没有人形”,而是同一套方法论在扩场景:从“开车”扩展到“干活”,从“道路”扩展到“家庭、楼宇、园区、城市服务”,从“车辆”扩展到各种机器人与物理执行单元。可以是轮式+机械臂、四足、人形、半人形,也可以是固定机械臂与家庭执行器网络(门锁、阀门、开关、升降等)。

2025-12-29 11:17:16 44

转载 比亚迪组织架构地震!撤销第13事业部......

公开资料显示,第十三事业部前身为2005年成立的弗迪精工,长期聚焦汽车零部件研发与制造,核心业务包括模具设计制造(覆盖整车冲压、焊接等工艺模具开发)、车灯及注塑配件生产(含矩阵式LED大灯、贯穿式尾灯等)、轨道交通零部件(如云轨减震组件)。此次调整后,汽车事业群对乘用车、商用车全链条研发的统筹能力增强,工程研究院与新技术研究院的前沿技术成果(如智能驾驶、电驱系统)可更高效地赋能高端产品线,助力打造差异化竞争优势,打破“性价比”标签,实现品牌价值跃升。其中,汽车事业群作为营收主力,旗下。

2025-12-29 11:17:16 95

转载 世界模型和数字孪生的本质是什么?怎么赋能自动驾驶?

其技术逻辑是通过 “高斯点的 3D 位置→投影到 2D 图像像素→与 LiDAR 深度值匹配优化”,建立 “视觉纹理 - 几何深度” 的映射关系,例如在复杂路口场景中,可修正 LiDAR 因 “遮挡(如大型车辆遮挡行人)” 导致的深度跳变,使感知系统对 “弱势交通参与者(行人、骑行者)” 的深度估计误差降低至 5cm 以内,提升目标检测的安全性。:突破 “依赖人工标注” 的行业痛点,通过全自监督 3D 占用估计技术,直接从多视图图像中学习场景的高斯分布特征。:解决自动驾驶 “极端光照场景重建失效” 问题。

2025-12-29 09:07:26 50

转载 AI Day直播 | 如何解决特斯拉提出的端到端三大挑战?

论文标题:DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning。围绕这三大难题,近期学术界和工业探讨了很多可能的解决方法。今天自动驾驶之心很荣幸邀请到香港大学计算与数据科学学院。端到端架构三大挑战及解决方案:UniLION、DrivePI、GenieDrive;「特斯拉端到端架构在实际部署中三大核心挑战及解决方案」🚀 直播精华看不够?

2025-12-29 09:07:26 32

转载 理想汽车又一核心骨干将离职

而据一见Auto信息,前两周理想内部刚对供应链相关部门进行了组织架构调整和合并,将原来智能汽车群组下属的一级部门“零部件集群”并入“制造”,统一由理想汽车副总裁李斌管理,李斌向总裁马东辉汇报,原零部件部门负责人罗屏已离职。作为理想进入纯电 SUV 领域后推出的首款车型,i8 延期一年上市,从去年年中到今年上半年,张骁带队完成了理想 i8 的造型方案调整与产品设计优化。接近年末的集中调整,绝不是李想的偶然决策,而是对「理想汽车将全面回归创业公司的管理模式」的具体行动。可以预见,理想的困境还将持续一段时间。

2025-12-28 17:23:00 58

转载 为什么前馈GS引起业内这么大的讨论?

所以本章节先从计算机图形学的基础讲起,三维空间的隐式表达和显式表达、渲染管线、光线追踪、辐射场渲染都是什么,这些技术概念和3DGS的联系是什么。整体上第二章的设计思路是带大家先打好基础,先详细梳理3DGS的原理部分及核心伪代码,接着讲解动态重建、表面重建、鱼眼重建和光线追踪的经典文章和最新的算法,由点及面层层深入。特斯拉ICCV的分享指明了智驾下一阶段发展的方向 - 端到端+生成式GS,里面的3D Gaussian的引入可谓是一大亮点,基本上可以判断特斯拉是基于前馈式GS算法实现的。

2025-12-28 17:23:00 39

转载 百度X-Driver:可闭环评测的VLA

准确的车道检测和决策也至关重要,包括检测不同条件下的车道边界(例如,褪色的标记、车辆的遮挡)、区分实线和虚线以进行合法变道,以及识别特殊车道,例如公交车道、自行车道和转弯车道。随后,MLLM 对这些传感器输入进行深度多模态融合和分析,在 CoT 提示的系统指导下,阐明一个清晰的、循序渐进的推理过程。模型首先确定对象的位置、运动方向和类别。目前基于 MLLM 的框架难以进行闭环评估,在现实世界的驾驶场景中存在幻觉和缺乏稳定轨迹输出,现有的方案在闭环评估中的成功率仍然很低,因此把怎么把VLA跑闭环非常重要。

2025-12-28 11:28:43 64

转载 搞过自驾的小伙伴,在其他领域还是很抢手

上半年不少自驾的同学转行去了具身,包括现在也是如此,L4/具身/无人机几个行业在大批量招人,而自驾又是相对成熟的AI领域,所以自驾的算法人才非常受欢迎,几个头部企业的薪资很到位(大疆/宇树/智元/哈啰等等)。今年,自驾的头部技术收敛到几个大方向上:一段式端到端、VLA、世界模型(重建+仿真)、强化学习。搞过自驾的人,用过大集群,解过各种corner case,上下游协同能力强,这些都是其他几个行业所欠缺的。欢迎添加助理咨询活动。

2025-12-28 11:28:43 28

原创 深扒了学术界和工业界的「空间智能」,更多的还停留在表层......

该研究提出了一种名为“空间智能网格(SIG)”的结构化图谱方案,通过将场景布局、物体关系及物理先验显式编码为网格语义,替代了传统的纯文本提示(VQA),并建立了配套的 SIGBench 基准,旨在解决多模态大模型在自动驾驶中依赖语言捷径、缺乏真实几何推理能力的难题。理想的MindVLA引入了空间智能的概念,主要体现在3D Feature上,视觉和Lidar经由3D Encoder得到时序融合后的特征,看起来和以往BEV感知的方法相似,再经由3D projector传递到下游的MindGPT中。

2025-12-28 11:28:43 254

转载 哼哧哼哧搞了小半年,小结一下这段时间世界模型的学习成果

如果说以上2种world models是大脑对世界的建模(mental world model),那么generative world model则是对真实世界的建模 (physical world model)。因为模型能准确预测图像的前提是它学会了物体的关系,以及相应的物理规律,只要有足够的数据量去cover所有的规律与关系。例如dino是一个好的视觉模型,可以感知物体的concept,但是它不能感知物体的运动,所以不是世界模型。值得注意的是,世界模型不是一个具体的模型或者范式。

2025-12-27 10:05:27 46

转载 端到端下半场,如何做好高保真虚拟数据集的构建与感知?

针对真实数据集中“类别不平衡”的问题,SimData在保证Car、Pedestrian等基础类别密度的同时,增加了Trailer(拖车)、Barricade(路障)、Traffic Cone(交通锥)、Van(面包车)等稀缺类别的样本比例。这种人为干预的数据分布优化,直接提升了模型对异形障碍物的检出能力。图3:数据集数据的分布统计,数据集包含了880个实例(Instances),215,472个关键帧数据(Sample Data)以及64,190个标注信息(Annotations)

2025-12-26 11:30:45 64

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除