Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for Autonomous Driving 论文笔记

论文链接:[2108.04602] Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for Autonomous Driving

一. 简介

本文提出一种高效的多模态 MOT 框架,创新点主要包括:

  • 开发一个端到端的深度神经网络,用于使用 2D 和 3D 量测进行联合目标检测与关联;

  • 开发一个强大的亲和度计算模块,以计算 3D 空间中的遮挡感知外观和运动亲和度;

  • 开发一个全面的数据关联模块,用于检测置信度、亲和度和开始-结束概率之间的联合优化;

一个典型的 MOT 系统包括:1)传感器校准;2)目标检测;3)数据关联;4)轨迹管理;

三. 系统设置和问题陈述

跟踪管道由五个阶段组成:

  • RPN 从配对帧中获取的校准传感器数据作为输入,生成感兴趣区域(RoI)和区域提案的多模态特征;

  • 并行检测和关联网络使用 RoI 和提议特征生成检测结果、Re-ID 亲和度和开始-结束概率;

  • Re-ID 亲和度通过动态预测和匹配分数排名模块进一步细化;

  • MIP 模块根据检测结果和计算出的亲和度执行全面的数据关联;

  • 对关联结果进行轨迹管理;

四. 所提方法

4.1. 并行目标检测和关联

  • 提案特征选择:RPN 生成的前景区域提案通常与 gt 框重叠率较低,这是由于其最初用于训练目标检测网络;此外目标信息不完整和重叠问题,导致这些粗略的提案不能直接用于识别任务。提出两个操作帮助关联网络训练期间的提案区域进行对齐:

    1)为提案输入设置较高的 IoU 阈值 $\theta_{iou}$;2)计算属于同一目标ID的编码提案特征的平均值;3)网络推理时设置较高的分类置信度阈值 $\theta_{cls}$

  • 提案特征关联:在学习 Re-ID 和开始-结束置信度之前,作者采用绝对减法 [5] 作为提议特征的成对相关操作,以表示相邻帧之间的目标依赖关系。给定帧 t-1 中有 M 个选定的提案 ,在帧 t 中有 N 个选定的提案,则相关特征矩阵的大小为 M × N 。为了获得全局对象间信息,特征矩阵分别沿其行和列进行平均。由于开始-结束估计是一项对称任务,因此生成的 N 个 “start” 特征和 M 个 “end” 特征被批处理以馈送到一个独立的 start-end 网络。

  • 目标关联网络细节和损失函数:对 Re-ID 和 start-end 网络都使用全连接层。每个选定的提案功能都可以分配给一个唯一的 ID 标签。每对所选要素都应具有用于 ID 匹配的二进制标签。因此,Re-ID 和开始-结束估计都成为一种二元分类任务。使用 softmax 排名 [5] 进行 Re-ID 输出,使用 sigmoid 激活进行 start-end 输出,以将所有置信度映射到 [0, 1]。使用 L1 loss 进行网络训练。

4.2. 亲和度计算

  • 运动预测与更新:KF;

  • 亲和度度量:3D-DIoU + ReID

a_{d,k}^{diou}=(1-\frac{\rho(b_d,b_k)}{l})+\frac{B_d\cap B_k}{B_d\cup B_k} \\ X^{aff}=\alpha A^{app}+\beta A^{diou} \\ \alpha+\beta=1

4.3. 用于数据关联的混合整数规划(MIP)

    目标匹配状态由三种类型的二进制整数变量表示:$Y=\begin{bmatrix}y^{cls},y^{aff},y^{se}\end{bmatrix}$$y^{cls}$ 表示目标是否为真阳性,$y^{aff}$ 表示量测和轨迹是否匹配为同一目标,$y^{se}$ 表示是否量测开始新的 ID 或轨迹结束其过时的ID。

    对应的三种类型的线性置信度为:$X=[x^{cls},x^{aff},x^{se}]$。其中 $x^{cls}$ 表示来自目标检测网络的分类置信度,$x^{aff}$ 表示来自亲和度计算模块的精炼目标亲和性,$x^{se}$ 表示来自 start-end 网络的开始-结束概率。

    给定检测量测值 D 和轨迹 K,关联变量约束为:

     MIP 目标函数为:$\arg\max_y[w^{cls}(x^{cls}-1),w^{aff}x^{aff},w^{se}x^{se}]\boldsymbol{Y}^T$。将之前工作 [5]、[19] 中的正系数 $x^{cls}$ 修改为负系数 $x^{cls}-1$ ,因为检测分数应该是一个惩罚项,以防止匹配或创建假阳性测量的轨迹(即,如果目标的分类置信度较低,则该目标的 y^{cls} 更有可能为零)。基于 MIP 的数据关联的管道如算法所示。

五. 实验结果

### DeepFusionMOT 3D 多目标跟踪框架概述 DeepFusionMOT 是一种先进的基于相机-激光雷达融合的 3D 多目标跟踪(MOT)框架,旨在通过结合多种传感器的优势来提高跟踪精度和鲁棒性。该框架的核心在于其深度关联方法,能够有效处理复杂的动态环境,并提供精确的空间和时间一致性。 #### 框架组成 DeepFusionMOT 主要由以下几个模块构成: 1. **多模态检测** 利用高性能的 3D 物体检测网络对来自摄像头和激光雷达的数据进行联合分析。具体来说,摄像头提供了丰富的纹理信息,而激光雷达则贡献了精准的距离测量数据[^2]。这种互补特性使得即使在部分遮挡的情况下也能保持较高的检测准确性。 2. **特征级融合** 基于注意力机制的特征融合策略被应用于早期阶段,以增强异构传感数据之间的交互作用。这种方法不仅保留了原始信号的特点,还促进了跨模态的信息传递,从而提升了后续步骤的表现力[^1]。 3. **运动预测与状态估计** 使用扩展卡尔曼滤波器或其他现代贝叶斯推断算法来进行目标的状态更新及未来位置推测。这一步骤对于减少因噪声或短暂丢失而导致的误差至关重要[^2]。 4. **深度关联机制** 针对每一对候选匹配项计算综合得分,考虑因素包括但不限于空间重叠程度(IOU)、外观相似度以及历史轨迹连续性等指标。特别值得注意的是引入了深层神经网络架构来学习更抽象且更具辨别能力的关系表示形式。 5. **优化求解过程** 整个系统的参数调整可通过端到端训练完成,在大规模标注好的序列样本集合上反复迭代直至收敛至局部最优解附近区域为止[^1]。 以下是伪代码展示如何构建这样一个系统: ```python class DeepFusionMOT: def __init__(self, detector_model, fusion_module, tracker_config): self.detector = detector_model self.fusion = fusion_module self.tracker = KalmanFilterTracker(**tracker_config) def process_frame(self, lidar_data, image_data): detections_lidar = self.detector(lidar_data) detections_image = self.detector(image_data) fused_features = self.fusion(detections_lidar, detections_image) tracks_updated = [] for track in current_tracks: prediction = self.tracker.predict(track.state) best_match = find_best_association(fused_features, prediction) if best_match is not None: updated_state = associate_and_update(track, best_match) tracks_updated.append(updated_state) return tracks_updated def main(): model = load_pretrained_models() fusion_layer = initialize_fusion_network() mot_system = DeepFusionMOT(model['detector'], fusion_layer, config={'std_pos':0.5,'std_vel':0.1}) if __name__ == "__main__": main() ``` 此段程序定义了一个类 `DeepFusionMOT` 来封装主要逻辑流程,并展示了基本的操作顺序——先做单独模式下的探测再实施高层次集成操作最后达成追踪目的。 --- ### 性能优势 相比传统仅依赖单一类型感应装置或者简单后期拼接方式的传统方案而言,DeepFusionMOT 展现出如下几个显著优点: - 更高的召回率:即便面对高度拥挤混乱状况依旧可以稳定识别多个个体; - 改善抗干扰能力:得益于双通道冗余设计降低了外界杂音影响概率; - 实现自动化校准功能:减少了人为干预需求提高了部署效率; 综上所述,借助先进的人工智能技术和精密工程实践相结合的方式,DeepFusionMOT 成为了当前领域内极具竞争力的技术解决方案之一[^3]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值