一. 简介
本文提出一种高效的多模态 MOT 框架,创新点主要包括:
-
开发一个端到端的深度神经网络,用于使用 2D 和 3D 量测进行联合目标检测与关联;
-
开发一个强大的亲和度计算模块,以计算 3D 空间中的遮挡感知外观和运动亲和度;
-
开发一个全面的数据关联模块,用于检测置信度、亲和度和开始-结束概率之间的联合优化;
一个典型的 MOT 系统包括:1)传感器校准;2)目标检测;3)数据关联;4)轨迹管理;


三. 系统设置和问题陈述

跟踪管道由五个阶段组成:
-
RPN 从配对帧中获取的校准传感器数据作为输入,生成感兴趣区域(RoI)和区域提案的多模态特征;
-
并行检测和关联网络使用 RoI 和提议特征生成检测结果、Re-ID 亲和度和开始-结束概率;
-
Re-ID 亲和度通过动态预测和匹配分数排名模块进一步细化;
-
MIP 模块根据检测结果和计算出的亲和度执行全面的数据关联;
-
对关联结果进行轨迹管理;
四. 所提方法
4.1. 并行目标检测和关联

-
提案特征选择:RPN 生成的前景区域提案通常与 gt 框重叠率较低,这是由于其最初用于训练目标检测网络;此外目标信息不完整和重叠问题,导致这些粗略的提案不能直接用于识别任务。提出两个操作帮助关联网络训练期间的提案区域进行对齐:
1)为提案输入设置较高的 IoU 阈值
;2)计算属于同一目标ID的编码提案特征的平均值;3)网络推理时设置较高的分类置信度阈值
-
提案特征关联:在学习 Re-ID 和开始-结束置信度之前,作者采用绝对减法 [5] 作为提议特征的成对相关操作,以表示相邻帧之间的目标依赖关系。给定帧 t-1 中有 M 个选定的提案 ,在帧 t 中有 N 个选定的提案,则相关特征矩阵的大小为 M × N 。为了获得全局对象间信息,特征矩阵分别沿其行和列进行平均。由于开始-结束估计是一项对称任务,因此生成的 N 个 “start” 特征和 M 个 “end” 特征被批处理以馈送到一个独立的 start-end 网络。
-
目标关联网络细节和损失函数:对 Re-ID 和 start-end 网络都使用全连接层。每个选定的提案功能都可以分配给一个唯一的 ID 标签。每对所选要素都应具有用于 ID 匹配的二进制标签。因此,Re-ID 和开始-结束估计都成为一种二元分类任务。使用 softmax 排名 [5] 进行 Re-ID 输出,使用 sigmoid 激活进行 start-end 输出,以将所有置信度映射到 [0, 1]。使用 L1 loss 进行网络训练。
4.2. 亲和度计算

-
运动预测与更新:KF;
-
亲和度度量:3D-DIoU + ReID
4.3. 用于数据关联的混合整数规划(MIP)
目标匹配状态由三种类型的二进制整数变量表示:,
表示目标是否为真阳性,
表示量测和轨迹是否匹配为同一目标,
表示是否量测开始新的 ID 或轨迹结束其过时的ID。
对应的三种类型的线性置信度为:。其中
表示来自目标检测网络的分类置信度,
表示来自亲和度计算模块的精炼目标亲和性,
表示来自 start-end 网络的开始-结束概率。
给定检测量测值 D 和轨迹 K,关联变量约束为:

MIP 目标函数为:。将之前工作 [5]、[19] 中的正系数
修改为负系数
,因为检测分数应该是一个惩罚项,以防止匹配或创建假阳性测量的轨迹(即,如果目标的分类置信度较低,则该目标的
更有可能为零)。基于 MIP 的数据关联的管道如算法所示。

477






