自动驾驶Ask Me Anything问答整理!VLA和WA的路线之争?

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

趁着小红书这波Ask Me Anything,跟着几位大佬学习到很多自动驾驶之心汇总了自动驾驶AMA的一些问答,分享给大家!AMA的完整版我们已经汇总至自动驾驶之心知识星球,后续还将持续整理大佬们的问答,欢迎加入和4000人一起交流自动驾驶最前沿~

小米陈龙

小米汽车自动驾驶与机器人Principal Scientist陈龙@陳龍龖龘

Q1:陈老师好!我目前是同济新大一学生(未选专业,工科可任选),未来想研究自动驾驶领域,请问您就行业发展与人才缺口而言推荐学什么专业呢?

A1:自驾有可能4年后就解决的差不多了,但AI方向肯定是没错的,所以有AI专业的话首选,没有的话就计算机

Q2:wayne工作体验怎么样呢?感觉很多黑科技,学生时代一直在follow

A2:wayve确实想得比较远,端到端,世界模型,VLA等自驾模型基本上都是产业界的开创者

Q3:请问你认为人类可以实现完全自动驾驶吗,如果可以大概还需要几年

A3:肯定可以的,L4其实Waymo、萝卜快跑已经实现了,L5可能还要至少5年

Q4:现在业界领先端到端能解决多少百分比的问题,上了vlm和vla又能把上限提升多少呢?

A4:个人认为90%吧,可以看下fsdtracker的top intervention,特斯拉把端到端做到极致了,安全性已经基本上能保证,剩下的大部分问题(比如lane issue)都是需要VLA去解决的

Q5:请教三个问题: 1. VLA和端到端的本质区别是什么? 2. 语言是必须的吗,会不会世界模型才是终局? 3. 怎么看待感知传感器里这两年提的比较多的成像毫米波雷达?

A5:1. VLA也是端到端,只是可以利用语言模态进行推理从而降熵增加确定性 2. 语言是必须的,参考猩猩学开车也能学会,但不理解这个世界没有语言推理能力终究会出各种问题 3. 4D毫米波雷达是一个纯视觉很好的冗余,当达到几千几万MPI时就会意识到冗余的重要性了

Q6:请问大佬认为做具身长期的个人竞争力是什么呢? 多模态想转具身,但是不知道技能壁垒有多高

A6:现在具身领域vla很火,大模型转具身还是比较容易的。可以看一下openvla,phi0.5等经典工作的代码,只是在vlm上加了action policy。真正有竞争力的话还是需要更大的scale,更多创新,真机夸本体泛化等等。

Q7:vla到底有没有用?

A7:终局肯定是VLA,端到端只能解决基本的驾驶能力。道路是为人设计的,有很多需要基于认知推理的场景,所以让车更像人一样思考,是通往高阶自动驾驶的关键。

Q8:如果说端到端只解决基本的驾驶能力(即视距范围内的局部感知规划控制),终局是VLA,那为什么终局不是Worldmodel(解决全局导航规划任务和车道级规划)+VA(解决局部感知规划)。一直觉得VLA中间转一层L 很多余,L可以做提示辅助(类似人开车时候的导航提示:前方100米左转),但不是必须的,因为我只看导航不听提示依然可以完成整个驾驶任务

A8:WM是为了加强端到端的能力,VLA不是为了简单转成L,是为了利用VL的泛化和推理能力,在长尾问题上做出较为正确的决策。

Q9:Momenta CEO 曹旭东认为VLA只能锦上添花,VLA概念跟更好的模型不是同一件事,实现规模化L4需要海量数据和强化学习技术。他似乎不太认同VLA路线,您怎么看?

A9:VLA也是端到端模型也可以用强化学习训练。自动驾驶L5的终局一定是VLA范式,而L4可能是纯端到端的上限,因为总会有长尾问题处理不了。

Q10:老师好,人形机器人的“像”(身体协调及美感)人和“做”(实用功能及效益)人哪个发展会最快及重要性和结合点

A10:短期内实用功能的发展会快于身体协调美感,并且从价值角度看“做”也远比“像”更重要,因为功能和效益是机器人商业化的核心,一个能干活但不太协调的机器人,远比一个动作优美但无法完成任务的机器人有价值。

PS. 欢迎添加柱哥微信交流

中科院夏中谱

中科院自动化所夏中谱@AI的前浪

Q1:老师 你能不能说下目前哪家车企智驾最强?

A1:从效果体验上看特斯拉还是当之无愧

Q2:理想小鹏的vla路线,和华为不搞vla搞wewa的路线,请问如何评价?希望您实话实说

A2:之前端到端视频输入轨迹输出,可以认为是个VA模型。VLA相当于是把LLM,模型能力引入到VA模型中,LLM模型优势在于模型参数量和海量互联网数据,具备zero/few-shot能力。但其主要学习的是语言数据,语言只是个宏观概念,很难对物理空间建模,如何让VLM具备空间理解能力也是当前研究热点。WM也不一样,直接在VA模型基础增加其他模态和数据,学习物理空间和运行规律,相对而言是个难度更大但更本质的方向。

Q3:老师,目前看到FSD在国内闯红灯乱压线错道行驶是数据上的问题还是模型有问题?上次看到澳大利亚北美本土FSD也存在这些问题。

A3:客观来说,现阶段的技术和人类司机一样,无法做到百分百不闯红灯和压实线,技术目标就是把这个做到百分百。数据里面会有这类人类灵活决策的情况,比如红绿灯坏了、道路堵塞了,都会发生红灯通过路口、压实线行驶的数据。

Q4:老师怎么看现在国内的自动驾驶解决方案的发展和欧美日的相比呢?比如欧美企业偏好的Mobileye(虽然目标客户可能也主要是欧美市场)

A4:目前看智驾在国内发展态势远优于国外,目前除了特斯拉,没有在国内能发的。

Q5:现在市面上的两段式端到端一般分为几类?

A5:主流方法有三种:1. 一段式端到端,感知结构化输出,规划使用结构化信息出轨迹,像华为的GOD+PDP,优势在于仿真容易。2. 一段式模块端到端,感知—规划隐式特征传递,信息更丰富,如UniAD。3. OneModel 端到端,感知和规划并行输出,规划可以提取到原始Image信息,信息利用率更高,如理想端到端。

美国智驾马千里

美国智驾公司Tech Leader马千里@白马网子-robotbrandonma

Q1:目前国内和特斯拉的差距是在哪呀?看上去算法都是端到端,国内还有vla了,车端算力也差不多(hw5之前),世界模型好像也能缩小数据的差异,是差在数据和云端算力上嘛

A1:个人猜测端到端本身的架构还是不一样,还有可能是特斯拉的Occ做的更好一些。世界模型能提供多少有效数据也是一个问题。最后就是即使是同样的架构,很多工程细节的叠加也会很大程度影响最终的效果。

Q2:还想问一下从你的视角看,国内的公司离特斯拉的差距还是很大嘛?是不是算法和工程上还是离得很远

A2:跟人觉得从前体验上差距不大,可能主要还是在算法上。软件工程上硅谷大企业的流程规范应该是普遍好于国内公司的。

Q3:传统决策规划还有前景吗

A3:个人认为在工业界是有的,只要是规模大、对安全性要求高的智能车/机器人产品,都需要规则兜底。尤其是智驾领域,欧洲有严格的ADAS行车法规,目前看用数据驱动的方式是没办法满足合规要求的。

Q4:即将毕业的三维视觉的博士生,请问应该进机器人公司还是智驾公司?想进机器人部门,但是一直被拒,说不match

A4:具体是3D视觉下面什么方向?我个人倾向于先到大一些的智驾公司训练成体系的工程思维,积累大型智能产品的成熟经验。机器人在产品层面还是在摸索之中,工程上走的弯路会比较多,如果不是以小搏大追求财富自由的话,个人觉得在个人成长上面速度偏慢。

Q5:请问智驾,激光雷达和纯视觉的优劣,未来可能的终极方案是什么

A5:激光雷达成本下来后应该没什么劣势。现在感知融合也没有技术阻碍,用激光雷达提供感知在距离上的精确冗余应该会是终极方案。

Vbot余轶南

维他动力创始人兼CEO余轶南@余轶南-Vbot维他动力

Q1:余老师,请教一个问题:您觉得WM应该如何更好地应用在机器人/具身智能里,除了大家现在常用视频预测用以构建数据生成和仿真以外,有没有更本质的应用方法?

A1:WM本质是对世界建模,构建世界的基础知识,需要很强的泛化性,目前做视频自监督(比如auto-regression)是一种主流的方式,也可以扩展到更多维度的数据,对广义的数据做input-output自监督,这是一种技术方案,也会有其他的方案,都值得尝试

上交陈思衡

上交副教授、博导,CMU博士@陈思衡

Q1:陈老师好,想向您咨询一下,您如何看待协同自动驾驶的发展趋势呢?

A1:这两年灌灌水还是挺不错的 问题空间够大,可以提很多新任务,比较容易自证技术创新,但是短期落地比较成问题。长期来看,很大比例的车会有自驾功能,这些智能车之后跟智能手机一样联网在一起,分享一些必要的观测和决策数据,应该是个非常自然的事儿

双节优惠倒计时!欢迎加入~

### VLA与VLM的核心区别 在自动驾驶领域,VLM(视觉-语言模型)VLA(视觉-语言-动作模型)代表了两种不同层次的技术架构。VLM主要关注于环境建模,即通过视觉语言信息对周围环境进行理解描述。它能够识别道路、障碍物、交通标志等关键元素,并结合自然语言处理能力对场景进行语义层面的解析。例如,VLM可以理解“前方有行人过马路”这样的描述,并将其转化为对环境的认知[^1]。 相比之下,VLA则是在VLM的基础上进一步扩展,不仅关注环境建模,还涵盖了路径规划控制策略的生成。VLA模型能够直接从视觉输入语言指令中提取特征,并生成具体的车辆控制指令,如转向、加速或减速。这意味着VLA不仅仅是在“看懂”环境,更是在“行动”,即根据对环境的理解做出实时的决策控制[^2]。 ### 技术应用与落地情况 在实际应用中,VLM已经被广泛用于自动驾驶系统的感知模块,帮助车辆更好地理解复杂的交通环境。例如,通过结合多模态大语言模型(MLLMs),VLA能够利用模型的世界知识分析驾驶环境,在复杂场景中进行安全决策的推理。这种方式不仅简化了系统架构,还减少了信息传递过程中的损失,提高了整体系统的效率可靠性[^2]。 而VLA作为VLM的升级版本,正在成为自动驾驶领域的研究热点。相比于传统的端到端方案,VLA方案拥有更高的场景推理能力与泛化能力。许多智驾行业的领导者都将VLA视为当前“端到端”方案的2.0版本,并将其看作是端到端+VLM的合体。VLA的优势在于其能够通过强化学习形成“思维能力”,自主处理新场景(如未知路况),从而实现更高效的城区自动驾驶支持[^3]。 ### 技术发展趋势 随着自动驾驶技术的不断进步,VLAVLM的应用也在不断发展。VLM在环境建模方面的表现已经非常出色,但其主要局限在于无法直接生成控制指令,需要与其他模块配合使用。而VLA则通过引入语言模态,实现了从感知到决策再到控制的全流程自动化,极大地提升了系统的智能化水平。 未来,随着深度学习强化学习技术的进一步成熟,VLA有望在更多复杂场景中发挥作用,尤其是在城区自动驾驶领域。通过不断优化模型结构训练方法,VLA将能够更好地应对各种突发情况,提高自动驾驶的安全性可靠性。 ### 示例代码:VLA的基本工作流程 以下是一个简化的VLA工作流程示例,展示了如何从视觉输入语言指令中生成控制指令: ```python import torch from transformers import CLIPProcessor, CLIPModel class VLA: def __init__(self): self.clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") self.clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") self.controller = torch.nn.Linear(512, 3) # 输出控制指令:转向、加速、刹车 def process_input(self, image, text): inputs = self.clip_processor(text=text, images=image, return_tensors="pt", padding=True) outputs = self.clip_model(**inputs) image_features = outputs.image_embeds text_features = outputs.text_embeds combined_features = torch.cat((image_features, text_features), dim=1) control_commands = self.controller(combined_features) return control_commands # 示例使用 vla = VLA() image = "path_to_image.jpg" # 假设这是车辆摄像头捕捉到的图像路径 text = "前方有行人过马路,请减速慢行" # 语言指令 control_commands = vla.process_input(image, text) print(f"生成的控制指令: {control_commands}") ``` 这段代码展示了VLA如何利用CLIP模型提取图像文本的特征,并通过一个简单的线性层生成控制指令。虽然这只是一个简化的示例,但它体现了VLA的基本工作原理[^2]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值