Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for Autonomous Driving 论文笔记

原创于 2025-01-02 17:54:51 发布 · 827 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #论文阅读 #目标跟踪

论文链接：[2108.04602] Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for Autonomous Driving

一. 简介

本文提出一种高效的多模态 MOT 框架，创新点主要包括：

开发一个端到端的深度神经网络，用于使用 2D 和 3D 量测进行联合目标检测与关联；
开发一个强大的亲和度计算模块，以计算 3D 空间中的遮挡感知外观和运动亲和度；
开发一个全面的数据关联模块，用于检测置信度、亲和度和开始-结束概率之间的联合优化；

一个典型的 MOT 系统包括：1）传感器校准；2）目标检测；3）数据关联；4）轨迹管理；

三. 系统设置和问题陈述

跟踪管道由五个阶段组成：

RPN 从配对帧中获取的校准传感器数据作为输入，生成感兴趣区域（RoI）和区域提案的多模态特征；
并行检测和关联网络使用 RoI 和提议特征生成检测结果、Re-ID 亲和度和开始-结束概率；
Re-ID 亲和度通过动态预测和匹配分数排名模块进一步细化;
MIP 模块根据检测结果和计算出的亲和度执行全面的数据关联；
对关联结果进行轨迹管理；

四. 所提方法

4.1. 并行目标检测和关联

提案特征选择：RPN 生成的前景区域提案通常与 gt 框重叠率较低，这是由于其最初用于训练目标检测网络；此外目标信息不完整和重叠问题，导致这些粗略的提案不能直接用于识别任务。提出两个操作帮助关联网络训练期间的提案区域进行对齐：

1）为提案输入设置较高的 IoU 阈值 $\theta_{iou}$ ；2）计算属于同一目标ID的编码提案特征的平均值；3）网络推理时设置较高的分类置信度阈值 $\theta_{cls}$
提案特征关联：在学习 Re-ID 和开始-结束置信度之前，作者采用绝对减法 [5] 作为提议特征的成对相关操作，以表示相邻帧之间的目标依赖关系。给定帧 t-1 中有 M 个选定的提案，在帧 t 中有 N 个选定的提案，则相关特征矩阵的大小为 M × N 。为了获得全局对象间信息，特征矩阵分别沿其行和列进行平均。由于开始-结束估计是一项对称任务，因此生成的 N 个 “start” 特征和 M 个 “end” 特征被批处理以馈送到一个独立的 start-end 网络。

目标关联网络细节和损失函数：对 Re-ID 和 start-end 网络都使用全连接层。每个选定的提案功能都可以分配给一个唯一的 ID 标签。每对所选要素都应具有用于 ID 匹配的二进制标签。因此，Re-ID 和开始-结束估计都成为一种二元分类任务。使用 softmax 排名 [5] 进行 Re-ID 输出，使用 sigmoid 激活进行 start-end 输出，以将所有置信度映射到 [0， 1]。使用 L1 loss 进行网络训练。

4.2. 亲和度计算

运动预测与更新：KF；
亲和度度量：3D-DIoU + ReID

$a_{d,k}^{diou}=(1-\frac{\rho(b_d,b_k)}{l})+\frac{B_d\cap B_k}{B_d\cup B_k} \\ X^{aff}=\alpha A^{app}+\beta A^{diou} \\ \alpha+\beta=1$

4.3. 用于数据关联的混合整数规划(MIP)

目标匹配状态由三种类型的二进制整数变量表示： $Y=\begin{bmatrix}y^{cls},y^{aff},y^{se}\end{bmatrix}$ ， $y^{cls}$ 表示目标是否为真阳性， $y^{aff}$ 表示量测和轨迹是否匹配为同一目标， $y^{se}$ 表示是否量测开始新的 ID 或轨迹结束其过时的ID。

对应的三种类型的线性置信度为： $X=[x^{cls},x^{aff},x^{se}]$ 。其中 $x^{cls}$ 表示来自目标检测网络的分类置信度， $x^{aff}$ 表示来自亲和度计算模块的精炼目标亲和性， $x^{se}$ 表示来自 start-end 网络的开始-结束概率。

给定检测量测值 D 和轨迹 K，关联变量约束为：

MIP 目标函数为： $\arg\max_y[w^{cls}(x^{cls}-1),w^{aff}x^{aff},w^{se}x^{se}]\boldsymbol{Y}^T$ 。将之前工作 [5]、[19] 中的正系数 $x^{cls}$ 修改为负系数 $x^{cls}-1$ ，因为检测分数应该是一个惩罚项，以防止匹配或创建假阳性测量的轨迹（即，如果目标的分类置信度较低，则该目标的 $y^{cls}$ 更有可能为零）。基于 MIP 的数据关联的管道如算法所示。