自动驾驶中有“纯血VLA“吗?盘点自动驾驶VLM到底能起到哪些作用~

自动驾驶中有“纯血vla"吗?

Q1:每个数据集的相机数量不一样,这里是怎么处理的?

每个数据集的相机数量不同。VLM模型能够支持不同数量图像的输入,因此在Prompt中可以提供不同数量的图像token输入,模型能够自动处理,无需明确指定相机数量。

Q2:vla中的action是怎么做的,直接用大模型输出文本形式的轨迹吗?

对于轨迹输出,我们直接通过模型以文本形式输出,并在Prompt中限制输出格式为XY坐标。数据中的QA部分,包括轨迹预测,均基于当前车辆坐标系给出。

本文内容均出自『自动驾驶之心知识星球』,星球内部汇总了诸多关于端到端和VLA的学术界和工业界的问题讨论、技术交流、大佬问答及岗位分享!更多内容欢迎加入知识星球,和4000人一起同行~

Q3:输出轨迹是在图片上的坐标吗?

最后通过视频验证结果,输出的轨迹并非图像坐标,而是相对于当前车辆的坐标。例如,当前车辆坐标为原点(0,0)(0,0)(0,0),预测结果为相对于该原点的(x,y)(x,y)(x,y)值。若需映射到图像,则需更多相机内参数据。不同数据集提供的数据各异:如NuScenes数据集包含相机内参,而Motioniary等数据集则无,因此难以映射至原始图像。我们的最终数据也未提供这部分信息。

Q4:有没有遇到输出的轨迹格式 vla没有遵循给的prompt这个问题?

关于轨迹输出格式问题,GPT-2.5模型整体遵循格式能力较强,但偶现格式不符情况。此时会重新生成结果,并通过Python编程进行轨迹格式规范化处理。在对比测试中发现,未经训练的VRM模型(如GPT)直接输出指定格式结果时表现欠佳,但经过我们的数据训练后效果显著提升。

我们的数据本身包含特定的格式要求,因此模型的输出格式符合预期。对于未经训练的原始模型,我们通过增强对比和格式限制来优化输出,例如要求以JSON格式呈现,并严格规定关键词或预设坐标的键值对形式。这种方式虽然可能与预期格式不完全一致,但能有效提取和处理结果。

Q5:vla输出的轨迹直接执行和轨迹预测预测的轨迹这两个轨迹有什么区别吗?

VLA轨迹预测与传统方法的区别在于:通过QA训练使模型获得场景理解能力,包括多模态轨距预测、路灯检测、自车运动预测(加速/减速/转向),以及导航指令解释。这种训练还能提升模型对动态物体(如车辆行人)轨迹的预测能力,从而增强整体预测性能。

VLA 数据集制作相关问题汇总

有相关数据集制作的同学可以参考~

Q1:Impromptu VLA做数据集时有遇到什么困难吗?这个数据集制作的时候就是用的各个数据集中选取的非结构化场景吗?

在数据集构建过程中,我们遇到了若干挑战。最初考虑的工作数据集存在访问失效的情况,部分数据集因数据质量问题被排除。例如,CSScape数据集中存在坐标异常问题:连续多帧坐标相同后出现突变,这可能是由于采样间隔过长所致。此外,不同数据集的坐标格式存在差异(如经纬度坐标与相对坐标),导致轨迹转换后出现不合理现象,例如前进方向与轨迹数值不匹配的情况。

我们还发现部分数据集的采集方式存在异常,如运动中的摄像头位移。针对这些问题,我们通过规则化方法剔除了不合理轨迹数据。在场景分类标准的制定过程中,我们进行了大量探索,最终确定了分类方案。 Prompt设计方面也遇到挑战,特别是在自车速度路径规划(speed pass plan)和动态物体速度路径规划预测时,由于格式相似导致模型混淆。我们通过添加special token和额外约束条件解决了这个问题。

最终数据集由各数据集的典型场景组成,经过严格筛选。但部分数据集(如Mockery)存在场景连续性不足的问题。Mockery 的场景可能被分割为多个片段。我们发现,某些连续场景(如转弯)被切分为三段,导致中间出现时间空缺。在提取轨迹并计算速度与加速度时,会观察到明显的跳变。最初我们未注意到这一问题,但在后续数据处理过程中进行了修正和剔除。

Q2:不同数据集如何对齐呢?不同数据集格式包括给到的数据都不太一样

数据集对齐方面,我们并非直接提供原始数据(如经纬度或相对坐标),而是将其统一转换为自车坐标系下的相对位移。对齐后的数据以 QA 格式组织,涵盖端到端轨迹预测、动态物体预测及速度路径规划(Speed Path Plan)模块。若数据集中缺失部分信息(如检测物体),则对应 QA 也不会生成,因此并非所有数据集均包含完整 QA。

Q3:自己做的数据集的格式是怎么样的?输入是图像和前1.5秒的轨迹点,输出是未来5s的轨迹点吗?结构是怎么样的?

输入数据格式如下:图像作为输入,前 1.5 秒轨迹点用于预测未来 5 秒轨迹点(端到端轨迹预测任务)。数据格式遵循 SANA 标准,前 6 类 QA 与 SANA 一致,第 7 类为新增的端到端预测任务,以确保数据完整性。具体结构可参考 SANA 或访问我们的 GitHub/HuggingFace 页面查看数据格式说明。

三年期间星球内部一直聚焦在自动驾驶最前沿的技术方向,多模态大模型、VLM、VLA、闭环仿真、世界模型、扩散模型、端到端自动驾驶、规划控制、多传感器融合等近40个技术方向的内容。涵盖了目前所有主流的方法论,并形成了技术路线,适合入门进阶的同学做进一步提升。

社区成员主要分布在头部的自驾/具身/互联网公司、Top高校实验室、还有一些传统的机器人公司。形成工业界+学术界互补的态势。如果您真的有需要,想要做系统提升、和更多的同行业人员交流,欢迎加入。开学季大额优惠,微信扫码加入~~

『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同学经常逛的地方。

更有料的是:星球内部为大家梳理了近40+技术路线,无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线,都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线产业界和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他们将会为大家答疑解惑。除了上面的问题,我们还为大家梳理了很多其它的内容:

  • 端到端自动驾驶如何入门?一段式/二段式量产中如何使用?

  • 传统规划控制想转端到端VLA,求学习路线图!

  • 自动驾驶多模态大模型预训练数据集有哪些?求自动驾驶VLA微调数据集?

  • 多传感器融合现在还适合就业吗?

  • 3DGS和闭环仿真如何结合?应用中需要考虑哪些元素?

  • 世界模型是个啥?业内如何应用,研究还有切入点么?

  • 业内哪家公司前景好一些,适合跳槽,都有什么岗位开放招聘?求星主内推~

  • 博士入学,哪个方向容易出成果?

  • 闭环强化学习如何入门?

  • 端到端自动驾驶学习路线推荐。

  • ......

我们会不定期和一线的学术界&工业界大佬畅聊自动驾驶发展趋势,探讨技术走向和量产痛点:

这是一个认真做内容的社区,一个培养未来领袖的地方。星球内部梳理了近40+自动驾驶技术方向,同时也有面向求职的问答梳理。

针对入门学习的同学,我们更是准备了全栈方向的学习课程,非常适合0基础的小白。

我们还和多家自动驾驶公司建立了岗位内推机制,欢迎大家随时艾特我们。第一时间将您的简历送到心仪公司的手上。

针对入门者,我们整理了完备的小白入门技术栈和全栈路线图。

已经从事相关研究的同学,我们也给大家提供了很多有价值的产业体系和项目方案。

欢迎和我们一起打造完整的自驾生态。

### VLAVLM的核心区别 在自动驾驶领域,VLM(视觉-语言模型)和VLA(视觉-语言-动作模型)代表了两种不同层次的技术架构。VLM主要关注于环境建模,即通过视觉和语言信息对周围环境进行理解和描述。它能够识别道路、障碍物、交通标志等关键元素,并结合自然语言处理能力对场景进行语义层面的解析。例如,VLM可以理解“前方有行人过马路”这样的描述,并将其转化为对环境的认知[^1]。 相比之下,VLA则是在VLM的基础上进一步扩展,不仅关注环境建模,还涵盖了路径规划和控制策略的生成。VLA模型能够直接从视觉输入和语言指令中提取特征,并生成具体的车辆控制指令,如转向、加速或减速。这意味着VLA不仅仅是在“看懂”环境,更是在“行动”,即根据对环境的理解做出实时的决策和控制[^2]。 ### 技术应用与落地情况 在实际应用中,VLM已经被广泛用于自动驾驶系统的感知模块,帮助车辆更好地理解复杂的交通环境。例如,通过结合多模态大语言模型(MLLMs),VLA能够利用模型的世界知识分析驾驶环境,在复杂场景中进行安全决策的推理。这种方式不仅简化了系统架构,还减少了信息传递过程中的损失,提高了整体系统的效率和可靠性[^2]。 而VLA作为VLM的升级版本,正在成为自动驾驶领域的研究热点。相比于传统的端到端方案,VLA方案拥有更高的场景推理能力与泛化能力。许多智驾行业的领导者都将VLA视为当前“端到端”方案的2.0版本,并将其看作是端到端+VLM的合体。VLA的优势在于其能够通过强化学习形成“思维能力”,自主处理新场景(如未知路况),从而实现更高效的城区自动驾驶支持[^3]。 ### 技术发展趋势 随着自动驾驶技术的不断进步,VLAVLM的应用也在不断发展。VLM在环境建模方面的表现已经非常出色,但其主要局限在于无法直接生成控制指令,需要与其他模块配合使用。而VLA则通过引入语言模态,实现了从感知到决策再到控制的全流程自动化,极大地提升了系统的智能化水平。 未来,随着深度学习和强化学习技术的进一步成熟,VLA有望在更多复杂场景中发挥作用,尤其是在城区自动驾驶领域。通过不断优化模型结构和训练方法,VLA将能够更好地应对各种突发情况,提高自动驾驶的安全性和可靠性。 ### 示例代码:VLA的基本工作流程 以下是一个简化的VLA工作流程示例,展示了如何从视觉输入和语言指令中生成控制指令: ```python import torch from transformers import CLIPProcessor, CLIPModel class VLA: def __init__(self): self.clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") self.clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") self.controller = torch.nn.Linear(512, 3) # 输出控制指令:转向、加速、刹车 def process_input(self, image, text): inputs = self.clip_processor(text=text, images=image, return_tensors="pt", padding=True) outputs = self.clip_model(**inputs) image_features = outputs.image_embeds text_features = outputs.text_embeds combined_features = torch.cat((image_features, text_features), dim=1) control_commands = self.controller(combined_features) return control_commands # 示例使用 vla = VLA() image = "path_to_image.jpg" # 假设这是车辆摄像头捕捉到的图像路径 text = "前方有行人过马路,请减速慢行" # 语言指令 control_commands = vla.process_input(image, text) print(f"生成的控制指令: {control_commands}") ``` 这段代码展示了VLA如何利用CLIP模型提取图像和文本的特征,并通过一个简单的线性层生成控制指令。虽然这只是一个简化的示例,但它体现了VLA的基本工作原理[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值