理想VLA到底是不是真的VLA?

部署运行你感兴趣的模型镜像

作者 | 大懒货 来源 |  https://weibo.com/2062985282/Q0LWSft0j

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

以下为原文:写一点 #理想mindvla让每个人都有专职司机# 到底是不是 真的VLA❓

或者更加收敛一点:

是不是机器人领域 基于一个大语言模型LLM作为主干网络,串行的神经网络实现:多模态信息整合编码【包含但不限于视觉、激光雷达、语言、地图、定位】后,基于大语言模型整合后输出决策并将决策转换成轨迹后再转换成控制细节❓

这类狭义的VLA

根据目前短暂本地体验,并对比了和E2E+VLM的差异

我认为是狭义的VLA

这里用几个场景差异来作证这个观点【如果觉得不对,那就是我错了~】

①:VLA后具备了非常好【比较少漏报或者虚惊】情况下的防御性驾驶,即在无遮挡的十字路口会开的比较快且稳健;在有遮挡的、视野不佳的路口会出现明显的基于可行驶剩余距离丝滑减速的防御性驾驶。

而过去E2E模型很难学会这种丝滑的减速,加上了VLM模块是可以实现特定场景,例如丁字路口的强制减速,但是体感上能感受到是一脚略微比较急的刹车。

而在VLA里面,这个减速的G值是根据剩余距离的长短进行调整,而且在这个短暂体验中没有出现过漏检/虚惊的情况。

这种场景变相证明了:

基于前向感知为主的信息输入,只要有比较好的LLM模型,能实现相当不错的场景理解能力。

②:在高架场景中,遇到严重的拥堵情况。本车已经处于静止状态,且右后到右前方一直有车辆强行Cut in进来。

VLA 在思考了一下【让了2辆Cut in 车辆后】,偶发顿悟。直接选择直接向左变道,并且触发变道后等了一下左后车辆,然后变道过去。避免了持续右边加塞的车辆。

而过去的E2E+VLM,在这类场景中一般会触发的都是绕行逻辑。本质上是基于模仿学习的端到端模型很难有真的场景理解能力【假定场景数据足够多,一定也能学会,只是现在OrinX跑不好,提前叠甲】。

在这个场景:其背后的推理思维,大概是。堵车、右前一直有Cut in ,且左前还有不错的空间似乎不堵车,离下高架还有好几百米。等会再变回去。所以现在先往左变道效率更高。【实际思考不一定是这样,大概率没有这个深度】

再次证明:VLA具备一定深度的场景理解能力。

③:高架A-高架B 中间那些 1.5倍标准车道宽度~2.5倍标准车道宽度的闸道行驶。

VLA 的驾驶策略是轻微松开电门减速,然后判断车道宽度不足是2个车道场景下,直接选择1.5 车道的居中行驶。且从A-B 衔接点的宽车道,再也不会出现画龙的场景。

而过去E2E+VLM 在这个场景100%会出现轻微画龙的轨迹。

在这个场景:1. 是因为VLA先通过场景理解知道这个是非标车道,需要居中行驶。第二个是在决策通过扩散模型生成轨迹,这个轨迹会比 E2E直接出的 轨迹先天会更加的收敛一些【具备更加稳定的中短时序的轨迹生成能力】

因此在A-B区域的画龙现象几乎没有,车道居中能力也大幅度提升。

④:再路口右转后,经过不到50米就马上要左转。且路口右转是进入下个路口的左三车道,车辆需要连续变3个车道才能进入左转车道【不到10米】。

VLA会直接选择直行,而并非直接进入左转车道【大概率会触发导航重新规划】,而且这个直行的决策非常的坚决。

E2E+VLM 大概率会触发直接变三道,放飞自我;小概率会出现直行触发强制导航重新规划。

这个也是证明 因为 VLA是全局串行存在,因此进LLM 后客观存在时延,轨迹的更加稳定,必然就不会像以前端到端这样放飞自我。

基于这个几个场景的解释,大家可以稍微重构一下场景,再来思考MindVLA是不是机器人领域中的狭义的VLA大模型?

几个问题顺带回答了?

Q1:语音有没有?有,还行语音本质上是LLM带来的添头,甜点区。泛化再进一步做,基础语音有了,记忆也有了~

Q2:选路能力是不是大幅度提升? 高维度抽象的选路能力有质的飞跃【场景理解】,底层能力会更加稳健【来源于扩散】

Q3:是不是自动驾驶? 不是,只是辅助驾驶,需要随时接管。请大家小心

Q4:是一个完整的技术栈么?行车是一个完整的技术栈,包含地面/高架/高速。是完整的技术栈

Q5:关键信息提取 COT 来得及么?基于防御性驾驶的Cot关键节点显示,在路口15-20米左右【目测】,已经触发防御性减速,延迟完全可以接受

Q6:迭代会快么?迭代会快很多,VLA 因为有Moe 还有其他很多工程巧思,相较于以前的端到端更不容易出现跷跷板的情况。可以分场景、分能力、分细节并行优化。

Q7:和FSD有没有差距?控车细节我觉得大部分场景仍然是FSD更好,但是选路能力在杭州是要好于FSD。部分场景释放的比FSD多【三点式掉头、语义理解】。我推测FSD的E2E 参量非常大和直接出控制细节相关。这个仍然需要调

Q8:有没有不好地方:遇到一次绿灯不走,在辅路估计看成了主路的红绿灯。【辅路么有右转绿灯,且主路右转是红灯场景。】这个场景思考估计还没打通?遇到一次跟着前车一起绕行的场景,我主动接管了。

Q9:现在要注意的事项?能力边界和E2E+VLM完全不一样,辅助驾驶请及时接管。

以上均来自于一台2022年的 双OrinX 计算芯片搭载的 VLA 模型体验反馈~

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

您可能感兴趣的与本文相关的镜像

Qwen-Image-Edit-2509

Qwen-Image-Edit-2509

图片编辑
Qwen

Qwen-Image-Edit-2509 是阿里巴巴通义千问团队于2025年9月发布的最新图像编辑AI模型,主要支持多图编辑,包括“人物+人物”、“人物+商品”等组合玩法

内容概要:本文介绍了ENVI Deep Learning V1.0的操作教程,重点讲解了如何利用ENVI软件进行深度学习模型的训练与应用,以实现遥感图像中特定目标(如集装箱)的自动提取。教程涵盖了从数据准备、标签图像创建、模型初始化与训练,到执行分类及结果优化的完整流程,并介绍了精度评价与通过ENVI Modeler实现一键化建模的方法。系统基于TensorFlow框架,采用ENVINet5(U-Net变体)架构,支持通过点、线、面ROI或分类图生成标签数据,适用于多/高光谱影像的单一类别特征提取。; 适合人群:具备遥感图像处理基础,熟悉ENVI软件操作,从事地理信息、测绘、环境监测等相关领域的技术人员或研究人员,尤其是希望将深度学习技术应用于遥感目标识别的初学者与实践者。; 使用场景及目标:①在遥感影像中自动识别和提取特定地物目标(如车辆、建筑、道路、集装箱等);②掌握ENVI环境下深度学习模型的训练流程与关键参数设置(如Patch Size、Epochs、Class Weight等);③通过模型调优与结果反馈提升分类精度,实现高效自动化信息提取。; 阅读建议:建议结合实际遥感项目边学边练,重点关注标签数据制作、模型参数配置与结果后处理环节,充分利用ENVI Modeler进行自动化建模与参数优化,同时注意软硬件环境(特别是NVIDIA GPU)的配置要求以保障训练效率。
内容概要:本文系统阐述了企业新闻发稿在生成式引擎优化(GEO)时代下的全渠道策略与效果评估体系,涵盖当前企业传播面临的预算、资源、内容与效果评估四大挑战,并深入分析2025年新闻发稿行业五大趋势,包括AI驱动的智能化转型、精准化传播、首发内容价值提升、内容资产化及数据可视化。文章重点解析央媒、地方官媒、综合门户和自媒体四类媒体资源的特性、传播优势与发稿策略,提出基于内容适配性、时间节奏、话题设计的策略制定方法,并构建涵盖品牌价值、销售转化与GEO优化的多维评估框架。此外,结合“传声港”工具实操指南,提供AI智能投放、效果监测、自媒体管理与舆情应对的全流程解决方案,并针对科技、消费、B2B、区域品牌四大行业推出定制化发稿方案。; 适合人群:企业市场/公关负责人、品牌传播管理者、数字营销从业者及中小企业决策者,具备一定媒体传播经验并希望提升发稿效率与ROI的专业人士。; 使用场景及目标:①制定科学的新闻发稿策略,实现从“流量思维”向“价值思维”转型;②构建央媒定调、门户扩散、自媒体互动的立体化传播矩阵;③利用AI工具实现精准投放与GEO优化,提升品牌在AI搜索中的权威性与可见性;④通过数据驱动评估体系量化品牌影响力与销售转化效果。; 阅读建议:建议结合文中提供的实操清单、案例分析与工具指南进行系统学习,重点关注媒体适配性策略与GEO评估指标,在实际发稿中分阶段试点“AI+全渠道”组合策略,并定期复盘优化,以实现品牌传播的长期复利效应。
<think> 嗯,用户想了解自动驾驶领域的VLA信息,正好我有三篇相关引用材料。从引用[1]看,VLA是视觉-语言-行动模型的缩写,属于自动驾驶前沿范式,能融合感知、理解和决策。引用[3]提到理想汽车刚发布的MindVLA架构,这个案例很新也很具体,应该重点介绍。 用户可能更关注技术原理而非商业新闻,需要避免直接复述厂商宣传。引用[2]指出数据集不足的瓶颈问题,这个技术痛点值得展开说明。考虑到用户是技术背景,可以适当加入架构图描述,但要注意所有公式必须用$...$格式,比如描述模型结构时可能需要用$\text{LLM} \times \text{Vision Encoder}$这样的表示。 上次回答时用户没追问,这次可以主动生成些深入问题。比如技术瓶颈那块,除了数据集问题,模型可解释性也是个好方向。优化方法方面,MoE架构和3D高斯都值得单独提问,用户可能是工程师想了解落地方案。 要注意把厂商案例(MindVLA)放在技术体系里说明,避免像广告。最后检查所有术语:VLA全称在首次出现时必须完整拼写,视觉感知等专业词汇保持原文大小写。生成问题时特意加入"与端到端方案区别"这个对比维度,帮助用户建立技术坐标系。 </think> 以下是自动驾驶领域**视觉-语言-行动模型(VLA)** 的系统性介绍与技术解析: --- ### **一、VLA的核心定义** VLA(**Visual-Language-Action**)是一种融合**多模态感知**(视觉)、**语言理解**(指令/推理)与**行动决策**(驾驶动作)的端到端自动驾驶模型架构。其目标是通过语言交互实现**可解释的智能驾驶决策**,例如理解“避让行人”或“紧急变道”的自然语言指令并解释行为逻辑[^1][^3]。 --- ### **二、核心技术框架** 1. **多模态感知融合** - **视觉输入**:摄像头/激光雷达数据 → 提取3D场景特征(如理想MindVLA采用的**3D高斯散射技术**增强空间理解)[^3]。 - **语言嵌入**:将导航指令(“左转进入辅路”)或交通规则(“礼让救护车”)编码为语义向量,公式表达: $$ \text{Language Embedding} = \Phi_{\text{LLM}}(\text{Instruction}) $$ 其中 $\Phi_{\text{LLM}}$ 为大型语言模型编码器[^1]。 2. **联合推理与决策** - 通过**跨模态对齐**(Cross-Modal Attention)关联视觉特征与语言语义,例如识别“施工路锥”并关联指令“绕行障碍”[^1]。 - 输出驾驶动作(转向/刹车等)的概率分布: $$ \pi(a_t | s_t) = \Psi_{\text{Policy}}( \text{Vision} \oplus \text{Language} ) $$ $\Psi_{\text{Policy}}$ 为基于扩散模型(Diffusion Model)或MoE架构的决策网络[^3]。 3. **可解释性机制** VLA可生成决策的自然语言解释(如“减速因检测到横向电动车”),实现**行为透明化**,提升人车信任[^1]。 --- ### **三、关键挑战与突破** 1. **数据瓶颈** - **问题**:缺乏大规模**视觉-语言-动作对齐数据集**,人工标注成本极高[^2]。 - **解决方向**: - 合成数据生成(仿真场景+语言指令自动标注) - 自监督学习(从行车视频中提炼隐含语义关系) 2. **实时性优化** - 理想MindVLA采用**混合专家模型(MoE)** ,动态激活子网络降低计算负载[^3]。 - 模型压缩技术(如知识蒸馏)适配车规级芯片算力。 --- ### **四、应用案例:理想MindVLA** - **3D场景重建**:通过3D高斯建模实现厘米级障碍物定位。 - **逻辑链推理**:解析复杂场景(如“施工路段+临时改道”)并规划安全轨迹。 - **量产部署**:全球首个车规级VLA架构,支持OTA持续进化[^3]。 --- ### **VLA与传统方案对比** | **能力** | 传统感知模型 | VLA模型 | |-------------------|------------------|-----------------------| | 自然语言指令理解 | ❌ 不支持 | ✅ 可理解复杂指令 | | 决策可解释性 | 黑盒决策 | ✅ 语言解释逻辑 | | 长尾场景适应性 | 依赖规则库 | ✅ 语义推理泛化能力强 | | 多模态交互 | 单一视觉/雷达 | ✅ 视觉+语言协同 | ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值