数据融合中的信息质量:不确定性感知的多模态目标检测
1. 背景与动机
在目标检测领域,许多现有的模型是基于单模态数据开发的。这意味着当传感器遇到严重故障时,这些模型可能会失效。而且,大多数模型在处理特定类型的噪声数据时,没有充分考虑多模态情况以及模型在各种噪声攻击下的鲁棒性。例如,Gaussian YOLOv3 是为单模态数据设计的,UNO 在语义分割任务上进行评估,Feng 忽略了环境中许多其他类型的噪声数据。因此,我们旨在综合这些技术的优势,构建一个不确定性感知的多模态目标检测模型,并使用常见类型的噪声数据对其进行评估。
2. 方法
2.1 自适应融合问题的表述
我们的目标是在存在自然噪声干扰的数据中定位和分类目标。一般来说,目标检测模型 (D(\cdot)) 以图像、点云或一组多模态数据 (X = {X_1, X_2, …}) 作为输入,其中下标表示模态。模型返回目标的预期坐标 ({x, y, w, h}) 和类别 ({c})。对于噪声数据检测,我们假设干净数据会通过噪声函数 (F(\cdot)) 进行测量。我们的目标是最小化识别偏差,同时最大化噪声的影响,即:
[
\min_D \max_F L (D(F(X)), {x, y, w, h, c})
]
当我们接近这个最小值时,可以保证检测模型在大多数严重噪声下的泛化性和鲁棒性。为了简化问题,我们假设 (X) 至少包含两种模态的数据,在本文中主要关注 LiDAR 点云和相机 RGB 图像。并且在单个实验中,只对一种模态的数据添加噪声,以避免所有传感器都失效的最坏情况。
2.2 基线模型选择
为了平衡速度和准确性,
超级会员免费看
订阅专栏 解锁全文
1069

被折叠的 条评论
为什么被折叠?



