【MIT-BEVFusion代码解读】第二篇：LiDAR的encoder部分

非晚非晚

已于 2024-08-29 13:42:27 修改

阅读量2.7k

点赞数 34

分类专栏：目标检测实战文章标签： BEVFusion 目标检测 3D目标检测 mmdet BEV

于 2024-08-15 14:39:52 首次发布

本文链接：https://blog.youkuaiyun.com/QLeelq/article/details/118058211

版权

文章目录

1. Voxelization
2. backbone

BEVFusion相关的其它文章链接：

【论文阅读】ICRA 2023|BEVFusion：Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation

MIT-BEVFusion训练环境安装以及问题解决记录

【MIT-BEVFusion代码解读】第一篇：整体结构与config参数说明

【MIT-BEVFusion代码解读】第二篇：LiDAR的encoder部分

【MIT-BEVFusion代码解读】第三篇：camera的encoder部分

【MIT-BEVFusion代码解读】第四篇：融合特征fuser和解码特征decoder

encoder部分分为LiDAR和camera两部分。这一篇文章主要介绍lidar的encoder部分，lidar的encoder主要有两部分，分别是voxelize和backbone，其中backbone部分使用的是SparseEncoder方式。
在这里插入图片描述

1. Voxelization

在train.py部分中，使用build_model构建模型，其中使用注册器register根据type类型创建BEVFusion实例。这部分我们主要关注lidar的enconder部分。

lidar的voxelization分为hard和dynamic voxelization，我们这里使用的是hard voxelization。创建voxel后再根据voxlize和backbone创建lidar的encoders。

if encoders.get("lidar") is not None:
    if encoders["lidar"]["voxelize"].get("max_num_points", -1) > 0:
    	# hard voxelization
        voxelize_module = Voxelization(**encoders["lidar"]["voxelize"])
    else:
    	# dynamic voxelization
        voxelize_module = DynamicScatter(**encoders["lidar"]["voxelize"])
    # 根据voxlize和backbone创建lidar的encoders
    self.encoders["lidar"] = nn.ModuleDict(
        {
   
            "voxelize": voxelize_module,
            "backbone": build_backbone(encoders["lidar"]["backbone"]),
        }
    )
    self.voxelize_reduce = encoders["lidar"].get("voxelize_reduce", True)

先来看一下voxelization部分的参数。如果对激光的体素化有所了解，这部分参数应该很好理解。

# 单个voxel最大点云个数
max_num_points: 10 
# voxel的大小[x, y, z]
voxel_size: [0.075, 0.075, 0.2] 
# 点云范围[x_min, y_min, z_min, x_max, y_max, z_max]
point_cloud_range: [-54.0, -54.0, -5.0, 54.0, 54.0, 3.0] 
# (training, testing)的最大点云个数
max_voxels: [120000, 160000]

激光的voxelization部分使用的是hard_voxelize代码，它是用c++实现，具体也不介绍了，这里只介绍一下它的调用部分。

这里输入points的某一帧的大小为[236137, 5]，第一位为点的个数，第二位为每个点的属性，分别表示[x, y, z, intensity, timestamp_diff]，其中最后一个timestamp_diff是指时间戳差异。

class _Voxelization(Function):
    @staticmethod
    def forward(
        ctx, points, voxel_size, coors_range, max_points=35, max_voxels=20000, deterministic=True
    ):
    	# 判断使用哪一种voxelization方法
        if max_points == -1 or max_voxels == -1:
            coors = points.new_zero