智驾将往何处去?第一次自动驾驶圆桌纪实

作者 | 刘斯坦 编辑 | 自动驾驶之心

 原文链接:https://zhuanlan.zhihu.com/p/1961979708389438749

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

具身智能之心做了好几期圆桌了, 听众越来越多,影响越来越大。节前同一个机构的分号自动驾驶之心找我说搞一搞智驾的圆桌,我才反应过来这才是我的老本行啊,当下就答应了。

这一次圆桌请到了博世中央研究院自动驾驶行车的负责人孙昊博士,BV百度风投副总裁柯迪,长安汽车泊车负责人许凌云博士和加州伯克利人工智能实验室博后研究员郑文钊博士。博世的孙昊博士入行智驾领域十年,如今致力于面向量产的研究,DiffVLA,Impromptu VLA和IRL-VLA连续sota;柯迪总投出了很多智驾和具身的明星公司,对行业有深刻理解;许凌云博士曾在多家主机厂担任技术高管,对量产和高阶算法的产品化落地极有心得;而郑文钊博士是OCC感知和表征学习领域的顶流,代表了全世界最顶尖的最具有创新力的科学家。

嘉宾的背景几乎没有重叠,大家的视角完全互补,让整个直播的每一个话题不断地产生全新的见解,我人都听傻了直接。

智驾回顾

回顾智驾十年,博世的孙博是感触最深的,最让孙博印象深刻的是多年前的Fast RCNN,回忆起智驾草创期,感慨万千。我比孙博稍晚,八年前加入的智驾行业,已经有YOLO了,但回想当年,所有的公司都在大举投资,扩张团队,刚毕业的年轻人加入之后马上被委以重任,直接一台Ubunt插两张1080Ti往后备箱里一扔就开始智驾的例子比比皆是。所有人都宣称要五年后实现自动驾驶,行业朝气蓬勃。孙博提出来的那些关键词,像深度学习驱动,caffe,ROS,Faster RCNN无一不在唤起我死去的记忆 。。。

郑文钊博士是Occ方面的世界顶级专家,Occ虽然现在似乎成为了过去式,其实作为能够进行自监督学习的强大中间表征,在预训练世界模型变得越来越火的今天其含金量还在不断提升。而且其在工业界落地的过程中还是存在大量的问题。

许凌云博士经历了从特斯拉HydraNet,BEV,端到端,VLA各个技术阶段的落地。许博毕业于机器人学全球第一的强校CMU,她思考的问题也非常具有机器人学视角的特质。在她看来,这一系列的变化第一次是机器人学建模坐标系的变化,第二次是数据驱动的变化,都带来了巨大的变革。现在的情况是端到端仍然处于工程落地阶段,而VLA的作用和构架仍然存在技术上争议。许凌云的思考是非常贴近量产,同时也贴近本质。

作为投资人的柯迪,他更关注的是智驾的商业浪潮,尤其是当他提出智驾商业化早期大家聚焦RoboTaxi的时候,我回忆了一下遥远的十年前,想起来确实是这么回事。现在想起来了当时的智驾实在是太儿戏了,要啥没啥就敢在那叫嚣全自动驾驶,人人都是不知道天高地厚的状态。后来被现实打脸,大家开始纷纷转型L2量产,才算是步入更符合商业化逻辑的轨道。

即便如此,一开始探索ADAS,连个产品定义都没有,从需求和产品出发,大家甚至不知道如何下手,也是困难重重。L2也是经历了模块化,端到端等阶段才走到了今天。如今曙光重现,L4首先在无人驾驶小车落地,RoboTaxi的热潮又开始起来了。柯迪投资的九识智能也算是无人物流车的明星企业了,正处于风口。

智驾行业的经验与教训

柯迪总结了一下,智驾行业经历了三次阵痛:第一次阵痛:放弃robotaxi;第二次阵痛:如何保证L2的安全;第三次阵痛:开始量产之后,将系统变成量产交付。

而决定一个智驾公司成功与否的,除了智家公司人工智能的能力之外,一号位的战略和执行力非常重要,智驾产品的整个交付链条非常长,从数采到数据到模型到系统集成。根据轲迪的观察,一号位执行力不同产生的结果马上就不一样了,用通俗的话说,就是一号位到底是蹲办公室发号施令还是下车间解决问题。

许凌云博士则总结到,除了执行力和战略,还考验一个公司有没有短板。智驾行业的幸存者不能有短板。技术基建设施,适配能力,人才密度,团队的专业程度,战略规划,与工程实践协同对一个智驾公司都非常重要。智驾行业从“有长板就能活”变成了“没有短板才能活”,智家公司必须是一个六边形战士。

孙昊博士的角度带有外企智家公司色彩,在他看来,智驾面临的挑战来自于智驾是一个非常复杂的系统。复杂系统的安全性是一个很大的问题,而随之而来的各种合规和安全标准都是门槛。这些事情还对智家公司的管理层和组织架构提出了高要求。

VLA与世界模型

孙昊博士回顾VLA从VLM发展过来的逻辑。VLM快慢系统的思路是容易理解的,VLA是为了打破快慢系统难以训练的问题。但实施的方法其实很多。比如有渐进式耦合方案:保留快系统架构,仅将VLM输出接口替换为latent feature,又比如混合架构方案:VLM后端接入AI planner进行轨迹规划,还有激进端到端方案:完全移除AI planner,采用类似ChatGPT的自回归方式逐点输出轨迹点。到底VLA的构架应该怎样,并没有定论。

而VLA与世界模型在业内专家看来并没有矛盾,反而是相辅相成的存在。比如孙昊博士最近发表的:

IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model

arxiv.org/abs/2508.06571

将VLA和世界模型结合在一起,没有任何违和感。

郑文钊博士则总结到,两个路线是从不同范式来解决智驾问题。VLA路线:解决语义理解与交互问题,通过语言模态实现环境认知升级。而世界模型路线:突破数据局限性,通过生成式建模拓展系统认知边界。二者均源于对传统端到端模型的改进需求,但采用不同技术范式实现系统能力提升。

郑博又总结了两者的互补性:VLA的语言和逻辑推理能力强,但细粒度的视觉理解差。而世界模型进行了良好的空间和细粒度建模。这两种范式高度互补,是可以进行融合的。

许凌云博士则更关注VLA的人机交互。因为VLA良好的人机交互能力,许博士已经开始考虑VLA的工程化问题,但其对安全和车规级系统提出了很高的要求。考虑这些创新的技术,许凌云博士考虑的是创新性和算力,安全性的平衡,同时还面临渐进式创新和颠覆式创新的战略选择。

对于投资者轲迪而言,使用何种技术并不会对他的投资决策产生很大的影响。技术细节并非唯一评估标准。技术能力与市场能力的匹配度直接影响最终产品表现。同时新技术带来的资源消耗是否值得也是个问题。

智驾还有没有搞头

孙昊博士认为,智驾带来对整个系统的理解能力,AI研发能力,兼具学术素养和工程落地能力的要求,都可以无缝对接到具身智能。因此,其实智驾行业积累的经验对具身智能仍然有效。

许凌云博士从产业的角度出发,觉得智驾的量产还面临很长的路要走。像城市NOA功能大部分友商做的都不好。又比如怎么融合VLA和世界模型之类的学术成果落地会有很多机会,这个行业还远远没有做完,大有可为。

郑文钊博士的发言是最为振聋发聩的,他认为正是这种学术界慢慢收敛,技术路线趋同的时代,学术界才更有其自身的价值。郑博认为学术圈的研究者们一定要把根本性的革命作为研究目标,而不是对现有方法小修小补。智驾要有系统性的跃迁,一定依赖于未来的技术革命,而且这场技术革命在他看来是一定会到来的。所以这样的时候智驾研究反而更有机会产生大的成果。

最后,大家一致认为现在如火如荼的AI coding不会对从业人员的核心竞争力构成影响,因为智驾的核心竞争力主要不是代码方面的。反而AI coding能让从业者将自己的焦点放在算法和更核心的东西上面。

自驾圆桌的录播已经上传至「自动驾驶之心知识星球」,欢迎大家加入学习交流~

双十一新人七折优惠!名额仅剩「5名」

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值