点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
论文作者 | Jianhua Wu
编辑 | 自动驾驶之心
写在前面&笔者的个人理解
近年来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。
通过对丰富的语言和视觉数据进行预训练,基础模型可以理解和解释自动驾驶场景中的各类元素并进行推理,为驾驶决策和规划提供语言和动作命令。
基础模型可以根据对驾驶场景的理解来实现数据增强,用于提供在常规驾驶和数据收集期间不太可能遇到的长尾分布中那些罕见的可行场景以实现提高自动驾驶系统准确性和可靠性的目的。
对基础模型应用的另外一个场景是在于世界模型,该模型展示了理解物理定律和动态事物的能力。通过采用自监督的学习范式对海量数据进行学习,世界模型可以生成不可见但是可信的驾驶场景,促进对于动态物体行为预测的增强以及驾驶策略的离线训练过程。
本文主要概述了基础模型在自动驾驶领域中的应用,并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。
本文链接:https://arxiv.org/pdf/2405.02288
自动驾驶模型
基于语言和视觉基础模型的类人驾驶
在自动驾驶中,语言和视觉的基础模型显示出了巨大的应用潜力,通过增强自动驾驶模型在驾驶场景中的理解和推理,实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。

最低0.47元/天 解锁文章
978

被折叠的 条评论
为什么被折叠?



