点击下方卡片,关注“自动驾驶之心”公众号
2025上半年已经过去了,上半年自动驾驶发展的怎么样?业内落地量产在做什么?学术界在关心什么技术方向?转行具身还是深耕智驾?全都是问题!
为此,自动驾驶之心采访了国内外数十位学术界和工业界的诸位大佬,和他们一起聊聊对这些问题的看法,希望对大家有帮助~
当下前沿技术的发展路线是否已经成熟并适合量产?有哪些难点需要攻克?
如何看待新兴的技术方向:VLA/VLM、扩散模型、闭环仿真、强化学习、端到端自动驾驶、世界模型等等
未来自动驾驶技术还有哪些值得探索的新方向?
深耕自动驾驶 or 投身具身智能,怎么选?
SJTU 张志鹏
BEV,Occ, E2E, VLA, 这几个词是从2022年到2025年自动驾驶中热词的一个变迁。BEV和Occ的引入某种程度上都是因为特斯拉推崇纯视觉方案,然后借鉴Lidar和机器人的一些建模方式去表征整个驾驶环境。近期又出现了一些用3DGS建模3D环境的方式。但是整体来看,自动驾驶中感知的场景表征的方式还是比较成熟了,各家厂商也验证了这种模式在实际中是走的通的。所以现在竟然会在CVPR遇到审稿人说“感知不值得做研究了,要去做world model,e2e”这种无厘头的审稿意见。虽然有失偏颇,但是整体确实反映了一个大趋势,工业界一堆做感知的人也是想往类似的方向转。针对感知本身,现在更加值得关注是corner case的鲁棒性。比如之前的文章farbev和robobev都算是探索的corner case的文章。所以个人愚见这并不仅仅是一个工程问题,还是需要研究更加有效的模型设计和训练方式。

E2E提供了一个打通上下游的视角,听起来不错,但是在实际中除了pr外一直没有看到他相对两阶段模型(感知unimodel,预测规划unimodel)真正的优势。甚至从数据收集难度和使用的角度,包括训练代价,可能后者实操性可更强。当然如果从信息无损传递,或者refine公司整个数据生产架构,管理架构的角度,一段式也有自己潜在的优势,只不过需要更多证据证明。也或许是E2E可能真的没有起到厂商ppt上那种夸张的效果,VLA引入后便迅速成为了新宠。VLA本质上也是一种端到端,不过更加直白和干净,很多方法也取消了传统端到端的复杂的3D感知任务。除了任务更简洁,VLA更重要的还是提供了一种解决corner case的可能性。如果在自动驾驶公司工作过,就知道之前(包括现在),迭代的方案都是增加issue case删除issue case的循环,而这种方案显然是无穷无尽的,而且我也非常相信哪怕这个方案迭代的再成熟,也难以达到我们理想中那种自驾的水准。
所以2025大家都在讨论VLA,因为VLA起码提供了一种摆脱这种无尽模式的可能性。当然第一个阵地,还是各家车厂的ppt上,各种各样的vla层出不穷,但是其实大同小异,甚至是不是真落地都打个问号(上车并不是真落地,真用起来起到作用才叫真落地,看不到代码大家也都没法证伪)。那自驾的VLA是不是真的起到作用了呢?不知道。因为能拿出来真的证明VLA起到完美解决corner case的证据并不是很多。所以第一个问题就是,有没有这样的数据足够研究VLA在corner case上的表现呢?至少在学术界还是远远不够(不过今年waymo的challenge提供了很多比较难的示例,可以多多关注)。而自驾厂商的数据,又因为商业壁垒和数据安全的问题,也没那么愿意或者容易分享出来。这就是一个很明显的学术界和工业届的gap。学术界东拼西凑整理已有数据成一个大的数据,或者是仿真出来一堆工业届根本不用的数据,远远不能验证VLA或者用来长期迭代VLA。第二个问题是避不开的效率问题,模型大不能达到延迟要求,模型小又丧失了期望模型能达到的能力。所以业界和学界又提供了分层VLA这种折中的方案,当然也有一套人脑快慢系统的说辞用来做解释(似乎AI领域的人总喜欢从人身上找证据)。但是我非常相信这不是最终的解,可能哪一天车端算力足够,或者全任务对齐标注的数据最后多,这些都不再是问题,合久必分分久必合嘛,老祖宗道理不会骗人。所以问题就成了,对于当前上车的需求,一个更值得研究的问题是如何用更小的模型实现接近大模型的性能。注意这里说的接近不是输出的语言质量,而是对action最终的影响。对自驾来说,并不需要像大模型评测那样严格的语言标准。在离职前东家前,做了一个半成品的工作,就是用稀疏结构化的输出替换语句形式的输出,似乎在理解能力上也没有降低自驾vl的性能,而且还能用比较小的模型(半成品姑且不谈)。至于蒸馏这种更老生常谈的方式就不再多言。第三个问题是,无论是端到端还是VLA,自驾里面的核心训练方案仍然是模仿学习。强化学习已经在隔壁大模型,具身大放异彩,但是在自驾似乎一直不温不火,也没有足够的证据证明强化学习真的会起到最后大的作用。当然除了算法之外,还有一个原因是仿真的问题。自驾中环境反馈的不确定性(smart agent)的精确建模难度和实现自驾几乎一样,同时自驾对安全性要求巨高,无法通过假设别人一定会让行自车这种交互行为来保证安全性。但是拉更长的战线,我们是能看到模仿学习的上限的,研究自驾的强化学习的前路(当然也可能不是强化学习,而是其他新的,我们还不知道的,xx学习的范式),或许比研究模型结构改来改去更有意义。

当然还有很多值得研究的点,比如world model到底world了个啥,对自驾真的有很大帮助么?可能都是值得探索的。
一顿胡说。
PS.本文采访嘉宾均来自『自动驾驶之心知识星球』,欢迎加入我们和业内最优秀的人一起同行!!!
国内头部车企算法专家 - 清秋
这几个问题都很好啊,戳着肺管子问问题了,个人拙见,权当抛砖引玉:
1、基于BEV的量产方案我认为已经完全成熟了,现在没有哪家智驾方案敢说BEV不能用的,基于BEV的动态感知、静态感知、OCC感知,全都可以做。基本上大的感知模块BEV都有天然的优势,也是为什么BEV感知很快就替代了原先的量产方案(单目/双目/检测/分割那一套)。现在最大的难点还是说corner case,99%的场景大家都能收敛了,换句话说,正常的场景和稍微难一些的场景(正常的直行、左右转、掉头,再加上泊车大家都大差不差的),稍微复杂一些的,拥堵场景、分叉路口目前能体现出一定的差距。但是困难的场景,非结构化乡村道路、多上下匝道、150米以上的超大路口、最右侧车道左转、最左侧车道右转这种奇葩车道,哪家公司敢说自己100%能过?所以当下的智能驾驶还是只能说特定场景下的辅助驾驶,但高速确实已经很好用了,离L3/L4还有很长一段路要走~

2、新兴的这几个技术路线都很好,也是大家发现现有的技术方案通过堆数据、堆规则还是解决不了困难场景了,所以需要做一些新方案的尝试。VLA/VLM和强化学习有什么特点,都是想利用更大更强的能力来解决问题,通过VLM海量的训练数据解释我为什么要这么做以及如何做,强化学习是说我现在不限制你中间过程了,我只告诉你最终的目的以及一定的必要性规则,让模型自己去学习和收敛。当下通用的大模型在自动驾驶的场景理解中表现还不是很好,或者说就不是为自动驾驶设计的,通用大模型做场景挖掘都没问题,但涉及到高级一些的理解能力就不行了。如何理解一个行人或者车辆的运动轨迹?如何让VLM理解直行红灯,左转绿灯是可以通行的?如何做空间理解,不要求出3D框这样精确的距离,有一个大概的距离概念就可以了?更不要说复杂一些的道路静态元素理解、拓扑关系推理等等。

扩散模型在我看来是轨迹生成的一种新方式,尤其是多模的轨迹可以更好的应用到不确定的驾驶环境中,但是真实场景中表现如何还要打一个问号?像我上面说的那些困难场景扩散模型有没有优势尚未可知。闭环仿真还是要大大发力的,无论是基于3DGS还是基于世界模型,都只能说能用,但不好用,咱就说一个问题,位姿不准的时候重建的质量怎么样?新视角的效果怎么样?换句话说怎么优化位姿也是个大活~

3、未来方向,我个人的看法当前VLA还很不成熟,非常不成熟,但也有一定阶段性的成果了。自动驾驶还没有一个专用的VLM基座,大都是用开源模型魔改的(Qwen、llava之类的),尤其是最近听到很多的一个词,空间理解。都在强调空间理解,现有开源的模型能做好空间理解么?个人感觉可以尝试做一个基于BEV的自动驾驶VLM大模型,当然,得烧钱~大模型是好啊,第一次证实AI可以像人类一样思考,AI的智能化往前了一大步(虽然有时候还很弱智),也是为什么这么多公司想做VLM/VLA,未来车辆终将会像人类一样思考,我也坚信这个方向是正确的,只是当下还不一定成熟,技术的积累还需要时间~

4、我十分理解很多人转行具身,太卷了...而且剩下的骨头很难啃,具身一片蓝海,随便搞搞benchmark都能顶会,然后再弄几个实机demo就化身行业专家了?(当然现在可能不一定行了)有人走有人留,我相信留下来的小伙伴或多或少都是有技术理想的,是真的想把智驾做好,想着自己有一天能用上自己做的方案安心的开着高速开着城区,想让自己的家人也享受科技进步带来的便利,非常喜欢自动驾驶之心团队的一句座右铭:道阻且长,行则将至~
端到端VLA jason老师
vla/vlm肯定能量产,但vlm那些与人对话的功能主要是提供情绪价值,用来控车的逻辑根对话能力基本无关;
世界模型在训练模型的过程中不可或缺,世界模型就是仿真的高阶形式,用以弥补数据缺失的问题;强化学习是个技术,有用,但不要因此而去专门研究强化学习,毕竟强化学习的开创者已经得了图灵奖,代表学界认为强化学习的研究已经很难再有大突破,现有技术很够用了;

未来的智驾技术,短期内还是先做好一站式端到端比较现实,长期的话,l4还早呢,个人认为l4的路上最重要的要素是鲁棒性;
规划控制宁远老师
当前业内L2+乘用车方向和L4 Robotaxi等方向的整体技术演进路线已经出现一定差异:目前看,L2+的一些玩家会把较多精力投入在VLM/VLA等方向,他们更注重泛化性,如何让系统能在99%的路线上好用是一个很有价值的短期目标,同时视觉语言模型可以提供更好的人机交互,这也符合这类产品的定义;而对于另一类做L4的玩家来说,安全性是重中之重,一些头部公司目前主要在推世界模型,一来可以给RL使用,提升模型上限的同时可以尽可能保证一定下限,二来可以使用世界模型构造长尾场景来做系统的安全性验证,这一点对L4尤为重要。

至于机器人还是自动驾驶,我觉得主要看个人兴趣吧,自动驾驶目前处在0.99-1的过程中,而机器人基本还处在0-1的阶段,各层面的方案还没有那么成熟,机会也比较多。长期来看,物理世界通用人工智能的实现一定是学术界工业界投入大量资源要去探索的,我认为自动驾驶是在这个过程中能够相对较早实现且具有巨大社会价值的应用之一。
某国际tier 1 高级算法科学家 牛肉咖喱饭
首先抛出我的观点,下一代自动驾驶技术的一定是围绕着更安全的驾驶,更好的乘坐体验,更全面的场景覆盖。为了实现这一目标无论是主机厂还是供应商需要建立一个更加系统,更加健全的自动驾驶运营模式,软件算法和数据运营会是其中两大核心能力(类似推荐算法是抖音的核心,但是其背后是其强大的数据运营能力)。 未来的自动驾驶公司可能更像“数据驱动的科技公司”。类似抖音的推荐算法,自动驾驶的竞争将从算法转向数据闭环的效率。谁能更快收集、清洗、标注、训练、验证,谁就占据优势。这需要强大的自动化工具链和AI驱动的数据流水线。那么我们不妨畅想这样一个架构,VLA/VLM作为最终影响终端用户应用体验的车端/车云端的应用,为了打造这样一个高体验感的产品,围绕VLA/VLM, 利用世界模型构建一个健壮高效低成本闭环仿真支持闭环验证,或者进一步利用强化学习对VLM/VLA进行闭环训练,持续提高自动驾驶数据运营和应用迭代效率,会是接下来自动驾驶公司新一轮技术迭代的关键。

具体而言,对于VLA,如果面向量产,VLA其实在一些复杂场景中表现出来了非常强大的应用潜力,但是反而对于一些简单场景,以及安全相关的场景纯粹的数据驱动的模型在简单场景下可能出现“过度自信”或“常识性错误”。而目前存世的自动驾驶相关技术公司,其实在简单场景和安全场景都有了一定的积累和能力,如果直接抛弃这部分积累全量使用VLA个人认为并不是一个成熟选择。除此之外我们在考虑算法本身的时候也需要考虑其背后庞大的为算法进行配套服务的数据服务以及自动化标注底座,短期内抛弃这些积累多年的量产工具,是否值得也是另外一个问题(尤其是对于有盈利压力的公司而言)。基于这个背景我们团队与清华赵昊老师团队近期一起提出了DiffVLA,期望在这个两阶段E2E+rule base兜底全面走向VLA时代的青黄不接期提出一个比较朴素的现实方案以帮助VLA方案进行滚动迭代。从具体方案层面考虑,VLA近期的论文还是以引入新的数据来源,引入新的学习范式,模型架构这样较为中早期的研究方案(这里拿3D Detector为例,早期工作讨论数据输入范式(Lidar还是Video),中期工作讨论模型架构,后期讨论极致优化和性能压榨,以大规模蒸馏和半监督学习收尾)。很庆幸,大组的工作还主要在输入模态,模型架构等方面进行探讨说明这个领域的方案并没有收敛,短时间内还是一片蓝海。

另外在数据与模型运营方面,我们看到了一个很好的技术趋势 agent simulator, sensor simulator, 以及 driving policy (这个policy可以是e2e也可以是vla/vlm) 进行闭环已经在学术界和工业界基本达成了共识。在这个大背景下谁更早的解决sim2real的domain gap,谁更高效的搭建这样一个闭环训练链路,谁的系统更高效那未来一定是可以引领自动驾驶技术市场的。
最后 深耕自动驾驶 还是投身具身智能? 在VLA时代,自动驾驶是对安全场景最严格的具身智能,具身智能是一个更灵活场景更丰富的自动驾驶,我们在同一条路上,砥砺前行,致敬一路相随的每一个小伙伴。
上海交大陈老师
如果说的是robotaxi,tesla是一种尝试,但普遍而言 还没有成熟到量产的程度吧。主要难点不一定是技术,更多是数据规模吧。可能达成自动驾驶的路径有很多条
公司已经很规模化了,留给学术届探索的空间不多了
这个是个人爱好和选择吧,都有光明的未来

一枚智驾码农
如果要用一个词来代表2025年上半年自动驾驶的发展,那一定是智驾平权。从比亚迪的天神之眼发布到地平线的征程6系列芯片量产,越来越多的平价车型可以用上辅助驾驶技术。但从技术的角度来说,低算力所能hold住的传统的BEV范式方案在处理一些corner cases上也一直心有余而力不足。所以,在我看来,那些平价车型的辅助驾驶除了在过拟合的高架高速场景,能在所有场景广而用之的,可谓寥寥无几。这也是国家开始抓这个行业的原因。

自动驾驶也符合二八定律,剩下的20%的长尾,确实需要我们付出80%的努力,而努力的方向是什么?是用上端到端&大模型。不管VLM也好,VLA也好,其本质都是要用大模型的泛化能力帮助自车像人一样理解场景,开出所谓最优的轨迹。不要像之前一样,路上一旦出现一个数据中没见过的目标,系统识别不了,那就感知加数据迭代;这个场景太复杂了,出来一个issue,那就pnc开始写rule兜底…这样的开发是没有止境的。其实各家都明白这个道理,只是有的迫于车端算力限制,没法实现,所以我觉得,对于平价车型的智驾方案,一方面可以尝试蒸馏预训练等等一些技术方案,另一方面就是等芯片的价格被打下来。我觉得另一个发展方向就是扩散模型,很符合人类开车大部分时候没有什么最优解,多模态轨迹都有效的一个直观概念。大家可以关注一下CVPR2025的DiffusionDrive,对实时性有很大的提升。
最后,我觉得自动驾驶目前来看还是很有前景的。从技术的角度来看,算力和性能的平衡,一直是一个在动态调整的过程,未来也不例外。从资本的角度来看,京东、哈啰一些大厂开始入局L4,也为这个行业添了一把新的柴火。
多模态大模型Sora老师
1、当下前沿技术的发展路线是否已经成熟并适合量产?有哪些难点需要攻克?VLA/VLM、扩散模型、世界模型等等
只简单聊一下VLM相关,通常量产的芯片决定了量产的技术方案。比如Orin-X的芯片可以采用多模态的LLM,加入激光,加入更多的视角,处理更为复杂的实时场景(拥挤的城区道路、多个出口的环岛......);那相对低端一些的芯片,比如地平线的J6M,就只能采取纯视觉的LLM,支持高速NOA。实际上能量产的模型参数最大不会超过7B,在使用过程中小参数量的模型其实问题很多,目前仍然会有各种兜底。那么小模型的效果优化、大模型的量化加速、车端芯片的性能优化都是需要攻克的难点。

另外还有通用性的问题,在国内做到70% 80%,出口海外仍然是很大的挑战。
2、未来自动驾驶技术还有哪些值得探索的新方向?
结合语音,结合OS,让汽车变得越来越好用,做真正的舱驾一体。
3、深耕自动驾驶 or 投身具身智能,怎么选?
这个要结合自身的情况,根据个人能站上的平台、曾经的履历成果、当前能拿到的资源、团队的情况、你的风险承受能力、你对自己生活和职业之间的分配等等因素来综合考虑。
国外头部企业自驾高级研究员浩哥
先聊聊VLM/VLA,我个人觉得肯定是下一代重点落地发力的方向,毕竟reasoning的能力是可以解释模型黑盒的,也是安全的很大的保障,其次还可以做个性化的服务。但是现在实时的E2E还需要考虑实际的车端算力,中低端的车上如何使用?尤其是一些轻量化高性能的算法,是我们实际做量产最关注的方向。
在说说世界模型,这个也确实是我们实际做模型训练需要使用的,包括还有一些闭环仿真的算法。因为真实数据采集加标注的成本太高了,通过世界模型这些生成算法,可以辅助做模型训练的,而且我们在这块已经大规模用起来了,还是很有效的。

对于强化学习和模仿学习这些VLM的三件套,尤其是强化学习,大家现在提的越来越多,无论是学术界还是工业界,大家公认这个东西是一定有用的。尤其针对驾驶数据比较少的时候,强化学习的扩展性的发挥空间还是很大的。闭环仿真是量产方案发布前的必经过程,基本上国外一些主机厂是不看开环指标的,就是闭环要做好,开环的指标最多做一个参考了,所以闭环仿真也是我个人认为非常重要的一个环节。无论是3DGS还是世界模型,还是现在像carla这种闭环仿真器都很有价值。
未来自动驾驶的发展路线,我个人的看法是中心化,当下还是以单车智能为主。未来像V2X之类的群体智能,可以是局部信息的联系,或者云端信息的联合,甚至是大的超算中心实现全局的联合,这是我未来看好的方向。
对于是深耕自动驾驶还是转行具身智能,这个见仁见智了。我个人觉得具身的领域还很不成熟,特斯拉的人形好像已经暂停了,未来作为生产力还很不明朗,不要搞的太激进,先扎根自动驾驶领域吧~
知乎大v - 刘斯坦
1、当下前沿技术的发展路线是否已经成熟并适合量产?有哪些难点需要攻克?
现在量产完全落地证实可行的,是BEV感知那一套,可以认为是去年完全落地的;如今端到端只能说是能用,但不能完全依赖。前者在2021年特斯拉AI Day提出来后变得广为人知,2022年李弘扬老师在OpenDriveLab组队做出了BEVFormer并开源,BEV感知才开始落地。等于说从开源到广泛上车用了两年,这还是建立在有关键开源代码库的基础上。

而现在这些流行的技术路线,比如VLM,VLA,世界模型等,学术界都没有完全摸清,就急着落地了。尤其是世界模型,有用这个概念搞预训练的,有生成数据的,还有某些车厂甚至宣称世界模型已经上车,风气非常浮躁。目前来看多模态语言模型方面最大的难点还是语言模型的幻觉问题,尤其是对视觉和激光雷达等模态的理解很容易产生幻觉。
闭环仿真和强化学习正在落地的过程中,我们很快就会看到这两个技术会大范围铺开。正如我2023年底在知乎上说的,强化学习最大的瓶颈就是仿真,只要能仿到位,强化学习一定能秒杀人类。尤其端到端这样的模型,特别适合强化学习。只要仿真和强化学习已到位,端到端就能真正大规模落地。
2、未来自动驾驶技术还有哪些值得探索的新方向?
3D高斯,仍然很不完美,3D高斯完全可以向世界模型发展,成为世界模型的一种表征。高斯核本身的形状与核函数乃至于球谐函数的替换都有值得深挖的地方。
世界模型,世界模型有三大用处,一是预训练,二是仿真和数据生成,三是端侧推理。每一种用途需要的模型特性甚至构架都不一样,现在二算是小有成就,一和三还有待深挖。
多模态语言模型,视觉语言模型还存在很多幻觉,更别说多模态语言模型了,别的不论,要么减少幻觉,要么研究如何界定ODD
毫米波雷达相关的应用,毫米波雷达基本没人碰,不是啥大方向,好歹搞一搞吧。

3、深耕自动驾驶 or 投身具身智能,怎么选?
深耕自动驾驶有很多耕法,两个领域在很多地方是重叠的,知识的迁移性也比较好。不过即便深耕自驾,也尽量选择迁移性强的方向,以后换行业也能有一个比较好的起点。另外,投身具身智能一定要确保自己的知识面比较广,现在具身领域的就业市场分的没有智驾那么细,很多常年钻研某个小领域的智架螺丝钉其实并不具备换行业的条件。真的要换的话也先看看自己的能力圈是不是到位了。
前沿的更迭速度很快,有没有一个专业的技术社区一直follow学术界的前沿研究和工业界的量产落地?带着这个想法,我们打造了『自动驾驶之心知识星球』。我们为大家准备了大额新人优惠...
大额新人优惠!欢迎扫码加入~