基于多传感器融合的3D检测文献总结(一)

2D Proposal Based Sequential Models

该类检测方法主要分为两个阶段:一个是候选框生成阶段(RPN阶段),一个是候选框的精修阶段(RCNN阶段)。
在RPN阶段中,该类方法通常会借用已有的2D检测器在给定的图片上生成相应的候选框。然后再基于一阶段生成的候选框检索得到相应的种子区域,并通过对种子区域的特征提取完成后续阶段的refine.

通常情况下,将2D语义信息与3D几何信息结合的方式有2种:
一种是将2D检测框投影到3D空间,产生相应的frustum,并以frustum为种子区域来进行后续阶段的refine;
另一种方式则是将3D点云投影到2D图片中,将2D图片上相应区域或者像素点的特征附着到点云中来辅助网络产生更高质量的候选框。

基于2D proposal来辅助3D检测的方式有以下几类方法:

  • result-level guided methods

该类方法侧重于利用现成的2D检测或者分割框架,获取关于整个场景下的前景点的先验,以进一步缩小整个点云场景的搜索空间。

以2D检测结果作为先验

下面介绍一个典型的代表性工作F-PointNet:
F-PointNet先是通过2D检测器生成相应的proposal,然后将生成的proposal投影到3D空间中得到frustum。对于frustum内部的点,F-PointNet设计了一个特定的实例分割网络,并对每个点进行了二分类(也即判断哪些点是前景点,哪些点是背景点)。最后再基于前景点的特征,通过PointNet来回归每个frustum对应的bbox.。
12

同期的文章[]也采用了类似的思想:其先是通过2D检测器在2D图像上生成了一系列的proposals,然后再将proposal投影到3D空间中得到对应的sub-region,并通过RANSAC算法以及model fitting算法来进一步生成和筛选3D proposals. 最后再根据预测的proposal内部的点,使用2D CNN来作置信度的预测和检测框的回归。

上述方法存在以下几个方面的不足:

  • 很容易受到2D特征提取器的表达能力的限制
  • 基于2D图片来获取前景点的方式很容易受到遮挡等因素的影响
  • 上述方式假设每个视锥内只存在一个物体,这样的假设使得模型对拥挤场景或者小物体的检测结果不是很好

以2D分割的结果作为先验

与前面提到的基于2D检测器的融合框架不同的是,IPOD[]是直接基于3D点云来生成proposal的。具体而言,其先是通过2D分割网络对整个场景的点云作了二分类,得到了一定数量的种子点,很大程度上减少了网络的搜索空间。接下来模型则基于种子点生成相应数量的proposal,并通过PointNet++来提取proposal内每个点的语义信息。以及最后再基于点的语义信息和位置信息来生成每个proposal的特征,以用于检测框的回归和置信度的预测。
下图为整个网络的pipeline:
12
下图为proposal feature的生成过程

  • Proposal-level based Fusion
    一个典型的代表方法就是PointFusion[]。PointFusion先通过2D检测器生成一系列的proposal,然后再基于PointNet和ResNet分别对Proposal对应的点云和图片区域进行特征提取,最后提出了Desne-Fusion以及Global-Fusion两种方式来融合两个不同模态的特征。
    在这里插入图片描述
    该方法的一个创新之处就在于该方法引入了proposal级别的特征融合方式,但该方法很容易受到2D检测器性能的限制。

  • Point-level based Fusion
    下面介绍两个相关工作,一个是PI-RCNN,另一个则是PointPainting。
    PI-RCNN引入了2个子网络来进行3D检测。其中一个子网络为基于点云的两阶段检测器PointRCNN,另外一个子网络则是2D语义分割网络。作者先是利用2D语义分割网络得到每个pixel的feature,与此同时PointRCNN一阶段也会输出一系列的proposal。接下来,我们将进一步融合proposal内每个点和对应图片像素之间的特征,作为每个proposal的特征,输入到PointRCNN的第二阶段用于refine。

    PointPainting则更为简洁——其直接将图片语义分割得到的特征和点云特征拼接起来作为3D检测器的输入,其Pipeline如下图。

### 3D目标检测文献综述 #### 自动驾驶中的3D对象检测回顾与展望 自动驾驶领域中,3D目标检测技术对于环境感知至关重要。该技术旨在识别并定位车辆周围的空间物体,提供精确的距离和位置信息[^1]。 #### 跨模态注意力机制在BEV空间的应用 跨模态注意力机制被用于提升BEV(鸟瞰图视角)表示的质量。具体而言,通过自上而下的方式学习BEV空间内的特征表达可以定义如下: \[ F_{3D}(x,y,z)=f(P_{xyz},F_{2D}(u,v)) \] 其中 \(P_{xyz}\) 表示三维坐标系中的点云数据;\(F_{2D}(u,v)\) 则是从二维图像提取出来的特征向量[^2]。 #### 多传感器融合策略 为了提高检测精度,研究者们探索了多种多源异构传感设备之间的协作方法,比如激光雷达(LiDAR),摄像头(Camera),以及毫米波雷达(Radar)。这些不同类型的传感器各自具备独特的优势,在实际应用过程中往往采用组合的形式来弥补单传感器存在的局限性。 #### 数据集与评估指标的发展趋势 随着研究深入,更多高质量的数据集不断涌现出来支持算法训练与测试工作。同时,针对特定应用场景定制化的评价标准也逐渐成为社区关注的重点之。 ```python import numpy as np def cross_attention_bev_learning(point_cloud_data, image_feature_map): """ 实现基于交叉注意机制的BEV特征学习函数 参数: point_cloud_data (np.ndarray): 点云数据数组 image_feature_map (np.ndarray): 图像特征映射 返回: bev_features (np.ndarray): 学习到的BEV空间特征 """ # 假设此处实现了具体的计算逻辑... bev_features = ... return bev_features ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值