【BEV感知】2-BEV感知算法数据形式

本文探讨了图像和点云在自动驾驶中的应用,介绍了如何从稀疏性和无序性的角度提取点云特征,以及为何选择点云。同时,对比了图像(纹理丰富、成本低)与点云(深度信息完整)的优缺点,并提及了BEV感知中使用2D图像处理网络和点云聚合方法(如Point-based和Voxel-based)的趋势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 图像

图像是由相机生成的,是将三维世界中的坐标点(单位为米)映射到二维图像平面(单位像素)

图像的劣势:三维到二维映射损失了空间信息。相比点云360视角采集,车载单相机有视角局限性。

图像的优势:纹理丰富、成本低

基于图像的任务、基础模型相对成熟和完善,比较容易扩展到BEV感知算法中。

1.1 如何获取图像特征?

使用2d图像处理网络对图像进行特征提取。

在这里插入图片描述

无论是BEVFormer中的backbone还是BEVFusion中的Encoder,本质都是一样的,都是通过Resnet等已有的2d图像网络提取图像特征。

2 点云

点云的基本组成单元是点,点组成的集合叫点云。

点云特征:稀疏性,无序性,3d表征。

2.1 稀疏性

1 遮挡。导致点云数据缺失。
在这里插入图片描述
2 射线发散导致远距离采样间隔大(漏采)、近距离采样间隔小

2.2 无序性

{1,2,3,4,5} = {1,4,5,3,2}

2.3 为什么要用点云?

点云包含了深度信息。

2.4 如何提取点云特征?

无论是哪种提取方式,都不是对单个点进行特征提取(没有意义),都是采用一定的聚合方法。

例如用点云中采样单个点并不能判断出这个单独的点是车的还是人的,需要结合一定的局部空间信息进行判断。

Point-based

从已有点云中选出一些关键点,关键点(绿色)和附近点(球内黄色)
在这里插入图片描述

Voxel-based

从场景出发,将场景划分为很多个小块,聚合一定空间范围内的点。(例下面3x3网格聚合为上面一个网格)
在这里插入图片描述

3 图像+点云

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值