CoVLA:自动驾驶VLA数据集~

作者 | wnwn 编辑 | 自动驾驶之心

 原文链接:https://zhuanlan.zhihu.com/p/1889278018540774029 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『VLA』技术交流群

本文只做学术分享,如有侵权,联系删文

原文:CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

针对VLM的自动驾驶领域的数据集数据量较少,本文采集了80个小时的驾驶视频构建了CpVLA数据集,包含详尽的传感器信息和全自动生成的语言文本描述。

文章以caption+轨迹 作为数据集的构成要件,例子如下

数据集依然存在不均衡的问题:自车静止和方向盘0度占据了数据集的绝大多数,数据不均衡现象十分严重

文章还提出了CoVLA-Agent架构,基于ViT和Llama2构建多模态大模型,mlp作为视觉连接器

场景描述用LLM直接出,轨迹把最后10个额外的token连接MLP输出

MLP单独训练ADE和FDE损失

测试了CoVLA的效果,可视化看起来使用GT caption的轨迹(蓝线)比使用预测caption的轨迹(红线)离GT(绿线)更远,说明好的caption对预测有辅助作用

文章统计了每个关键字对应的指标,发现以下关键字的轨迹误差较大,减速、左转、加速、弯道、右转,符合直觉

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

### VLA技术在自动驾驶和ADAS系统中的应用 视觉-语言-动作(Vision-Language-Action, VLA)模型是一种多模态人工智能方法,它能够处理图像、自然语言以及动作指令之间的复杂关系。这种能力使得VLA模型非常适合应用于自动驾驶汽车(Autonomous Driving, AD)和高级驾驶辅助系统(Advanced Driver Assistance Systems, ADAS)。以下是几个具体的应用场景: #### 场景感知与环境理解 通过融合摄像头捕捉的画面信息和语义化描述,VLA可以帮助车辆更好地理解和解释周围的世界。例如,在复杂的交通环境中,它可以识别行人行为并生成相应的文字说明来指导决策过程[^2]。 ```python def interpret_scene(image_data): """ 使用VLA模型解析输入图片的内容。 参数: image_data (numpy.ndarray): 输入的图像数据 返回: str: 对应的文字描述 """ model_output = vla_model.predict(image_data) scene_description = convert_to_text(model_output) return scene_description ``` #### 可解释性增强 对于安全至关重要的领域来说,提供清晰易懂的理由非常重要。利用VLA技术不仅可以做出关于下一步行动的选择,还可以用人类易于理解的语言表达这些决定背后的原因。 #### 实时路径规划与障碍规避 当遇到突发状况比如前方有物体突然掉落或者儿童跑过马路等情况时,具备快速反应机制至关重要。借助预先训练好的大型预训练参数量级下的VLA框架如CoVLA-Agent,则能够在毫秒级别完成从检测目标物到调整行驶路线整个流程自动化操作。 #### 用户交互界面优化 为了提高用户体验度,现代智能座舱越来越注重人机互动体验感的设计理念。而引入支持语音命令识别功能的同时还能反馈当前路况详情给驾驶员知道的功能模块正好满足这一需求趋势;即允许乘客说出他们想去的目的地名称之后由系统自动计算最佳导航线路方案并且沿途播报重要提示事项等等[^1]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值