点击下方卡片,关注“自动驾驶之心”公众号
趁着小红书这波Ask Me Anything,跟着几位大佬学习到很多自动驾驶之心汇总了自动驾驶AMA的一些问答,分享给大家!AMA的完整版我们已经汇总至自动驾驶之心知识星球,后续还将持续整理大佬们的问答,欢迎加入和4000人一起交流自动驾驶最前沿~
小米陈龙
小米汽车自动驾驶与机器人Principal Scientist陈龙@陳龍龖龘
Q1:陈老师好!我目前是同济新大一学生(未选专业,工科可任选),未来想研究自动驾驶领域,请问您就行业发展与人才缺口而言推荐学什么专业呢?
A1:自驾有可能4年后就解决的差不多了,但AI方向肯定是没错的,所以有AI专业的话首选,没有的话就计算机
Q2:wayne工作体验怎么样呢?感觉很多黑科技,学生时代一直在follow
A2:wayve确实想得比较远,端到端,世界模型,VLA等自驾模型基本上都是产业界的开创者
Q3:请问你认为人类可以实现完全自动驾驶吗,如果可以大概还需要几年
A3:肯定可以的,L4其实Waymo、萝卜快跑已经实现了,L5可能还要至少5年
Q4:现在业界领先端到端能解决多少百分比的问题,上了vlm和vla又能把上限提升多少呢?
A4:个人认为90%吧,可以看下fsdtracker的top intervention,特斯拉把端到端做到极致了,安全性已经基本上能保证,剩下的大部分问题(比如lane issue)都是需要VLA去解决的
Q5:请教三个问题: 1. VLA和端到端的本质区别是什么? 2. 语言是必须的吗,会不会世界模型才是终局? 3. 怎么看待感知传感器里这两年提的比较多的成像毫米波雷达?
A5:1. VLA也是端到端,只是可以利用语言模态进行推理从而降熵增加确定性 2. 语言是必须的,参考猩猩学开车也能学会,但不理解这个世界没有语言推理能力终究会出各种问题 3. 4D毫米波雷达是一个纯视觉很好的冗余,当达到几千几万MPI时就会意识到冗余的重要性了
Q6:请问大佬认为做具身长期的个人竞争力是什么呢? 多模态想转具身,但是不知道技能壁垒有多高
A6:现在具身领域vla很火,大模型转具身还是比较容易的。可以看一下openvla,phi0.5等经典工作的代码,只是在vlm上加了action policy。真正有竞争力的话还是需要更大的scale,更多创新,真机夸本体泛化等等。
Q7:vla到底有没有用?
A7:终局肯定是VLA,端到端只能解决基本的驾驶能力。道路是为人设计的,有很多需要基于认知推理的场景,所以让车更像人一样思考,是通往高阶自动驾驶的关键。
Q8:如果说端到端只解决基本的驾驶能力(即视距范围内的局部感知规划控制),终局是VLA,那为什么终局不是Worldmodel(解决全局导航规划任务和车道级规划)+VA(解决局部感知规划)。一直觉得VLA中间转一层L 很多余,L可以做提示辅助(类似人开车时候的导航提示:前方100米左转),但不是必须的,因为我只看导航不听提示依然可以完成整个驾驶任务
A8:WM是为了加强端到端的能力,VLA不是为了简单转成L,是为了利用VL的泛化和推理能力,在长尾问题上做出较为正确的决策。
Q9:Momenta CEO 曹旭东认为VLA只能锦上添花,VLA概念跟更好的模型不是同一件事,实现规模化L4需要海量数据和强化学习技术。他似乎不太认同VLA路线,您怎么看?
A9:VLA也是端到端模型也可以用强化学习训练。自动驾驶L5的终局一定是VLA范式,而L4可能是纯端到端的上限,因为总会有长尾问题处理不了。
Q10:老师好,人形机器人的“像”(身体协调及美感)人和“做”(实用功能及效益)人哪个发展会最快及重要性和结合点
A10:短期内实用功能的发展会快于身体协调美感,并且从价值角度看“做”也远比“像”更重要,因为功能和效益是机器人商业化的核心,一个能干活但不太协调的机器人,远比一个动作优美但无法完成任务的机器人有价值。
PS. 欢迎添加柱哥微信交流

中科院夏中谱
中科院自动化所夏中谱@AI的前浪
Q1:老师 你能不能说下目前哪家车企智驾最强?
A1:从效果体验上看特斯拉还是当之无愧
Q2:理想小鹏的vla路线,和华为不搞vla搞wewa的路线,请问如何评价?希望您实话实说
A2:之前端到端视频输入轨迹输出,可以认为是个VA模型。VLA相当于是把LLM,模型能力引入到VA模型中,LLM模型优势在于模型参数量和海量互联网数据,具备zero/few-shot能力。但其主要学习的是语言数据,语言只是个宏观概念,很难对物理空间建模,如何让VLM具备空间理解能力也是当前研究热点。WM也不一样,直接在VA模型基础增加其他模态和数据,学习物理空间和运行规律,相对而言是个难度更大但更本质的方向。
Q3:老师,目前看到FSD在国内闯红灯乱压线错道行驶是数据上的问题还是模型有问题?上次看到澳大利亚北美本土FSD也存在这些问题。
A3:客观来说,现阶段的技术和人类司机一样,无法做到百分百不闯红灯和压实线,技术目标就是把这个做到百分百。数据里面会有这类人类灵活决策的情况,比如红绿灯坏了、道路堵塞了,都会发生红灯通过路口、压实线行驶的数据。
Q4:老师怎么看现在国内的自动驾驶解决方案的发展和欧美日的相比呢?比如欧美企业偏好的Mobileye(虽然目标客户可能也主要是欧美市场)
A4:目前看智驾在国内发展态势远优于国外,目前除了特斯拉,没有在国内能发的。
Q5:现在市面上的两段式端到端一般分为几类?
A5:主流方法有三种:1. 一段式端到端,感知结构化输出,规划使用结构化信息出轨迹,像华为的GOD+PDP,优势在于仿真容易。2. 一段式模块端到端,感知—规划隐式特征传递,信息更丰富,如UniAD。3. OneModel 端到端,感知和规划并行输出,规划可以提取到原始Image信息,信息利用率更高,如理想端到端。
美国智驾马千里
美国智驾公司Tech Leader马千里@白马网子-robotbrandonma
Q1:目前国内和特斯拉的差距是在哪呀?看上去算法都是端到端,国内还有vla了,车端算力也差不多(hw5之前),世界模型好像也能缩小数据的差异,是差在数据和云端算力上嘛
A1:个人猜测端到端本身的架构还是不一样,还有可能是特斯拉的Occ做的更好一些。世界模型能提供多少有效数据也是一个问题。最后就是即使是同样的架构,很多工程细节的叠加也会很大程度影响最终的效果。
Q2:还想问一下从你的视角看,国内的公司离特斯拉的差距还是很大嘛?是不是算法和工程上还是离得很远
A2:跟人觉得从前体验上差距不大,可能主要还是在算法上。软件工程上硅谷大企业的流程规范应该是普遍好于国内公司的。
Q3:传统决策规划还有前景吗
A3:个人认为在工业界是有的,只要是规模大、对安全性要求高的智能车/机器人产品,都需要规则兜底。尤其是智驾领域,欧洲有严格的ADAS行车法规,目前看用数据驱动的方式是没办法满足合规要求的。
Q4:即将毕业的三维视觉的博士生,请问应该进机器人公司还是智驾公司?想进机器人部门,但是一直被拒,说不match
A4:具体是3D视觉下面什么方向?我个人倾向于先到大一些的智驾公司训练成体系的工程思维,积累大型智能产品的成熟经验。机器人在产品层面还是在摸索之中,工程上走的弯路会比较多,如果不是以小搏大追求财富自由的话,个人觉得在个人成长上面速度偏慢。
Q5:请问智驾,激光雷达和纯视觉的优劣,未来可能的终极方案是什么
A5:激光雷达成本下来后应该没什么劣势。现在感知融合也没有技术阻碍,用激光雷达提供感知在距离上的精确冗余应该会是终极方案。
Vbot余轶南
维他动力创始人兼CEO余轶南@余轶南-Vbot维他动力
Q1:余老师,请教一个问题:您觉得WM应该如何更好地应用在机器人/具身智能里,除了大家现在常用视频预测用以构建数据生成和仿真以外,有没有更本质的应用方法?
A1:WM本质是对世界建模,构建世界的基础知识,需要很强的泛化性,目前做视频自监督(比如auto-regression)是一种主流的方式,也可以扩展到更多维度的数据,对广义的数据做input-output自监督,这是一种技术方案,也会有其他的方案,都值得尝试
上交陈思衡
上交副教授、博导,CMU博士@陈思衡
Q1:陈老师好,想向您咨询一下,您如何看待协同自动驾驶的发展趋势呢?
A1:这两年灌灌水还是挺不错的 问题空间够大,可以提很多新任务,比较容易自证技术创新,但是短期落地比较成问题。长期来看,很大比例的车会有自驾功能,这些智能车之后跟智能手机一样联网在一起,分享一些必要的观测和决策数据,应该是个非常自然的事儿
双节优惠倒计时!欢迎加入~


189

被折叠的 条评论
为什么被折叠?



