【论文阅读 - YolTrack】YolTrack:基于MTL的自动车辆实时多目标跟踪和分割

在这里插入图片描述
本文2021.12发表于IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS,作者来自哈工大。本文的主要贡献在于提出了一种新的神经网络模型YolTrack;将MTL应用于MOTS任务,提出一种优化的几何平均多任务损失,用于目标检测、分割和跟踪的联合训练;与现有方法相比,YolTrack在实时性上有很大的提高。


论文链接:https://sci-hub.ru/10.1109/TNNLS.2021.3056383




摘要

现代自动驾驶汽车需要完成各种视觉感知任务,以进行场景构建和行动决策。多目标跟踪和实例分割(MOTS)是影响汽车的转向和制动中最主要的任务。使用多任务学习神经网络实现这两个任务,在性能和复杂性方面提出了重大挑战。目前对MOTS的研究主要是通过two-stage检测模型来提高网络的精度,这很难满足自动驾驶汽车的实时性要求。本文提出了一种基于one-stage实例分割模型的实时多任务网络YolTrack来执行MOTS任务,损失少量的准确率和精度,推理速度达到29.5帧/秒(fps)。YolTrack使用带有特征金字塔网络(FPN)的ShuffleNet V2作为Backbone,从中扩展两个Decoder来生成实例分割和embedding vectors。利用分割的masks对特征图进行逻辑与运算,提高跟踪性能,证明了前景分割在目标跟踪中具有重要作用。在训练阶段,通过优化几何平均损失来平衡多任务的不同尺度。在KITTI MOTS数据集上的实验结果表明,YolTrack在实时性方面优于其他最先进的MOTS架构,适合部署在自动驾驶汽车上。
关键词:自动驾驶汽车、环境感知与识别、多目标跟踪与实例分割(MOTS),多任务学习(MTL)。

一、引言

自动驾驶汽车是一个得益于计算机视觉、决策融合和控制技术的进步而迅速发展的应用领域 [1]-[3]。环境感知作为自动驾驶汽车的核心技术之一,负责分析周边道路交通状况,为规划决策提供数据支持,这使得环境感知在精度、实时性、功耗等方面都有较高的要求。同时,随着车载传感器数量增加,多源传感器数据融合、嵌入式部署、故障诊断和容错是自动驾驶汽车环境感知需要解决的下一个问题 [4]-[6]。作为主要的感知手段,计算机视觉由目标检测、语义分割、深度估计和运动检测[7]-[9]等任务组成。近年来,卷积神经网络在计算机视觉中得到了广泛的应用,并取得了令人满意的结果。对于单个特定的应用,如对象检测,cnn可以在对象上生成bounding box并标记类别,这已经在实际的自动驾驶汽车中部署。

在计算机视觉领域,人们致力于提高网络在单一任务上的性能。然而,自动驾驶汽车同时承担了一系列任务,这对汽车平台的性能和功耗提出了挑战。多任务学习(Multitask learning, MTL)是近年来提出的一种对多个任务进行统一处理的学习方法。MultiNet++[10]提出了一种用于联合学习分割、深度和运动的高精度多任务网络。Siam等人[11]训练了一种名为MODNet的双流MTL架构,用于RGB图像和光流输入的检测和运动分割。把所有任务联合在一起学习是不现实的,因为网络的精度随着任务的增加而降低[12]。并非所有的任务都可以共同学习,否则,训练结果可能会变得很差。多任务学习需要任务之间有相关性,以确保任务之间可以产生正影响[13]-[15]。实例分割和对象跟踪都需要部分相似的特征,这在之前的工作[12]中已经得到了证明。

本文重点研究了在MOT的基础上扩展的多目标跟踪和分割任务,将检测、分割和跟踪结合起来。与基于Bounding Box的检测不同,像素级的实例分割不受目标叠加或重叠的干扰,可以有效提高跟踪性能。虽然检测性能已接近完美,但面对复杂的城市道路交通场景,仍存在重大挑战。自动驾驶汽车需要同时对大量目标进行高精度的实时检测和跟踪,并能抵抗复杂天气条件带来的干扰。

大多数提出的多目标跟踪和实例分割(MOTS)方法是基于two-stage的神经网络模型,而实时方法很少被开发。Voigtlaender等人[16]通过三维卷积对Mask R-CNN进行扩展,融合temporal context和association embedding,生成用于目标跟踪的关联向量association vectors,并将KITTI跟踪数据集和MOTChallenge数据集扩展到MOTS数据集,为汽车和行人提供基于Bounding box的tracklets和分割mask。MOTSNet[17]在Mask R-CNN上增加了跟踪头,并提出了Mask pooling来提取ROI Align特征的前景信息,以提高跟踪性能。PointTrack[18]将二维图像像素视为二维点云,使用三维点云处理方法学习实例嵌入,大大提高了推理速度和执行效率。

本文提出了一种实时MOTS模型 YolTrack,用于自动驾驶汽车的环境感知和识别。与上面提到的two-stage模型不同,YolTrack可以直接回归对象的位置和类别信息,减少延迟。从相同的特征映射解码Bounding box回归和embedding vectors生成,并通过线性组合原始mask和mask系数生成分割mask,该方法已在YOLACT[19]中被证明可以生成高质量的mask。同时为了平衡不同任务的训练,提出了一种简单有效的loss策略,使每个任务的收敛速度保持在一个接近的水平上。

本文给出了在KITTI MOTS数据集上高精度、实时性的测试结果,证明了YolTrack在自动驾驶汽车领域的实用性。本文的主要贡献有:
1). 为了满足自动驾驶汽车对多目标跟踪和分割的高精度和实时性要求,提出了一种新的神经网络模型YolTrack
2). 将MTL应用于MOTS任务,提出一种优化的几何平均多任务损失,用于目标检测、分割和跟踪的联合训练。
3). 通过对KITTI MOTS数据集和Apollo MOTS数据集的评价,YolTrack与现有方法相比,在实时性上有很大的提高,如图1。
在这里插入图片描述 图1. 在KITTI MOTS数据集上训练的最先进的MOTS解决方案以及YolTrack的性能。YolTrack是少数几个实现实时性的同时保证准确性的方法之一

本文的其余部分组织如下。 第二节介绍了MOTS领域和MTL领域的研究进展,以及MOTS专用的数据集。 第三节阐述了核心方法,包括YolTrack的结构、每个任务的损失函数和MTL策略。 第四节详细说明了训练、测试过程和参数配置,并对结果进行了深入分析。 第五节是结论部分,对本文的方法和实验结果进行了总结。

二、相关工作

A. 多目标跟踪与分割

多目标跟踪和分割都是基于目标的轮廓信息,这样学习到的特征会在一定程度上重叠,根据UberNet[12]中提到的理论,这可能会使网络性能更好。

实例分割是自动驾驶汽车感知的主要任务之一,包括对象检测[20]和语义分割。two-stage的CNN方法,首先从图像中定位实例,然后在不同实例[21]范围内标记每个像素点,这使得整个过程非常耗时。one-stage实例分割的思想是在生成bounding box时提供embedding,并将这两部分结合起来,创建最终的mask[19],[22]-[24]。Gao等人[25] 以及Bai 和Urtasun等人[26

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

古、

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值