关于多传感器融合方法的总结与思考

最新推荐文章于 2025-03-06 17:07:44 发布

Just Go For It Now

最新推荐文章于 2025-03-06 17:07:44 发布

阅读量1.4k

点赞数 2

分类专栏： 3D检测文章标签：计算机视觉人工智能机器学习

本文链接：https://blog.youkuaiyun.com/chengsilin666/article/details/110881969

版权

3D检测专栏收录该内容

5 篇文章

订阅专栏

本文探讨了点云在BEV和RangeView表示下的优缺点，特别是在3D对象检测中的应用。BEV避免了物体遮挡问题但不适用于小尺度物体检测，而RangeView则能反映物体间遮挡但存在尺度不均一的问题。多传感器融合中，相机和LiDAR的数据表示差异及视角问题带来挑战。文章提到了早期融合、深度融合和后期融合等融合策略，并引用相关文献分析了现有融合方法不如基于LiDAR方法的原因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点云的各种表示
- BEV
  - 优势
    - 能够完好地保留物体的尺度信息，不存在2D图像中物体尺度变化大的问题（近处的物体尺度较大，远处的物体尺度较小）
    - 避免了物体间相互遮挡的问题
    - large and sparse
  - 劣势
    - 不适用于检测小尺度物体（比如行人或者自行车等等）
    - 不适用于检测空间中分布较为密集的物体
    - 不适用于室内数据集的检测，因为在室内数据集中，可能存在物体相互遮挡的情况（比如椅子位于书桌下等等）(解决方式：文献[])
    - 小尺度物体的信息在网络下采样的过程中可能会发生丢失（解决方式：文献[]）
    - 将点云转化为BEV会丢失物体的空间信息
- Range View（Front View）
  - 优势
    - 3D场景下，物体最自然的表现形式
    - 反映了物体之间的遮挡关系(文献)
    - samll and dense
    - computationally efficient as it is a compact representaion of the Lidar data
  - 劣势
    - 物体之间存在遮挡
    - 物体的尺度变化不均一
多传感器融合的难点
- 传感器视角问题
  - camera获取到的信息是“小孔成像”原理，是从一个视锥出发获取到的信息，而lidar是在真实的3D世界中获取到的信息
- 数据表征的不同
  - camera image是dense的和规则的，而idar points却是稀疏的、无序的,所以在特征层或者输入层做融合，会由于domain的不同而影响融合的有效性
联系两种传感器的桥梁
- 同一个物体在同一个时刻下的绝对位置信息是一样的，变化的只是物体在不同传感器下的表现形式（RGB或者Lidar points）。因此我们可以依据相机坐标系和Lidar坐标系的转换矩阵来建立两种不同模态数据之间的联系
多传感器融合的方式
- Early Fusion
  - 优点：简单，直接，不受限于3D检测器的类型
  - 缺点：由于待融合的两种数据来自于不同的模态，因此Early Fusion存在数据域对齐、表示形式不统一（RGB表示更为dense,而Lidar表示更为sparse）
- Deep Fusion
  - 优点：可以在每一个阶段都考虑两种模态之间的信息交互（但并不清楚是否有这个必要???）
- Late Fusion
  - 优点
    - 不需要在输入端考虑数据同步或者对齐的问题
    - 网络最后一层输出的特征往往含有极为丰富的语义信息，因此在这个阶段做特征融合就显得直接明了了

融合方式	相关文献
Early Fusion	[5],[10],[16]
Deep Fusion	[9],[12],[13],[14]
Late Fusion	[1],[2],[3],[6],[7],[8],[11],[17]

为什么现有的多传感器融合方法不如基于Lidar的方法

参考文献
[1] Frustum pointnets for 3d object detection from rgb-d data. (CVPR 2018)
[2] Frustum convnet: Sliding frustums to aggregate local point-wise features for amodal. (IROS 2019)
[3] A general pipeline for 3d detection of vehicles. (ICRA 2018)
[4] Ipod: Intensive pointbased object detector for point cloud.
[5] Pointpainting: Sequential fusion for 3d object detection. (CVPR 2020)
[6] Pointfusion: Deep sensor fusion for 3d bounding box estimation. (CVPR 2018)
[7] Multi-view 3d object detection network for autonomous driving. (CVPR 2017)
[8] Joint 3d proposal generation and object detection from view aggregation. (IROS 2018)
[9] Deep continuous fusion for multi-sensor 3d object detection. (ECCV 2018)
[10] Mvx-net: Multimodal voxelnet for 3d object detection. (IROS 2019)
[11] Multi-task multisensor fusion for 3d object detection. (ICCV 2019)
[12] Sensor fusion for joint 3d object detection and semantic segmentation. (CVPR 2019）
[13] Epnet: Enhancing point features with image semantics for 3d object detection. (ECCV 2020)
[14] 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection. (ECCV 2020)
[15] Lasernet: An efficient probabilistic 3d object detector
for autonomous driving. (CVPR 2019)
[16] RangeRCNN: Towards Fast and Accurate 3D Object Detection
with Range Image Representation.
[17] CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection.