自动驾驶中的多任务感知技术解析
1. 引言
在计算机视觉领域,多任务学习是一个具有挑战性的问题,但在自动驾驶中已成为一种高效且节省资源的范式。自动驾驶车辆需要理解和解决多个感知任务,如检测周围的汽车和行人、预测道路可行驶性以及定位车道等,以执行合适的驾驶动作。联合解决多个任务可以大大减少训练和推理时间,并促使模型学习更具通用性的表示。
虽然已有一些工作尝试在自动驾驶中对多个任务进行统一训练,但这些工作在任务类型、评估指标和数据集方面存在差异,难以比较它们的性能。而且,大多数方法是基于密集预测和自然语言理解开发的,并非专门针对自动驾驶中更常见的感知任务,因此在应用到自动驾驶系统时可能效果不佳。所以,对现有的多任务学习方法进行全面评估,涵盖自动驾驶中的常见任务,变得越来越迫切。
多任务感知可分为 2D 感知和 3D 感知。对于 2D 感知,我们研究多任务学习的有效适应方法,并提出通用和特定任务的提示;对于 3D 感知,我们将多种模态统一起来进行多任务学习。
2. 2D 感知
2.1 多任务学习模型的挑战
多任务学习模型需要从现有的最先进的预训练模型中获取通用特征。最近,许多最新的自监督预训练方法在预训练 - 微调范式下,转移到各种视觉任务时显示出了巨大潜力。然而,它们在多任务学习场景中的可转移性仍有待探索。
联合学习多个异构任务会给训练统一模型带来诸多挑战,多任务学习并不总是具有普遍益处。一方面,流行的预训练 - 微调范式可能会导致多任务学习性能下降,因为大多数监督和自监督预训练方法是为特定目标或任务设计的,预训练和微调的目标不一致。另一方面,多任务学习的性能依赖于许多重要因素,如模型架构、数据增
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



