车路多视图交互数据融合方法解析
1. 引言
在拥挤场景中,目标遮挡是目标检测面临的一大难题。多相机视图的聚合在解决这一问题上比单视图表现更优。一些研究人员通过透视变换将特征提取网络得到的特征图或 RGB 图像投影到地平面,再利用无锚框的空间聚合方法对多视图特征图进行聚合。然而,投影后的特征图存在语义信息不足的问题。为了获取具有丰富语义信息的特征图,引入了一种新的多视图检测方法 MVT,它能从多个视角有效提取特征。同时,还引入了一种预测边界框可靠性定位不确定性的方法,以提高真阳性率(TP)和模型的整体鲁棒性。
1.1 不同检测方法背景
- 单视角方法 :大多数目标检测方法基于单相机,严重依赖深度学习方法。传统目标检测算法分为单阶段和两阶段算法。与两阶段算法相比,多数单阶段算法精度较低但速度较快。许多常见算法基于锚框,但也有研究人员采用无锚框方法,如 CornerNet 和 FCOS。还有研究人员对非极大值抑制(NMS)进行研究,如 GrooMeD - NMS 和 MDS - NMS。不过,在密集检测或交叉路口场景中,这些方法会遇到遮挡、漏检、误检和检测精度低等问题。
- 多视图方法 :多视图应用能有效解决遮挡问题。单相机易出现物体重叠或遮挡,而多相机可以对各自图像进行空间聚合。很多研究人员在处理图像数据时采用空间聚合方法,例如 MVDet 对卷积神经网络(CNN)生成的特征图进行透视变换,然后对多视图进行空间聚合,取得了较好的效果。通过透视变换方法投影特征图并拼接多视图特征图,可获取世界特征。
- Transformer 方法
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



