PVConvNet: Pixel-Voxel Sparse Convolution for multimodal 3D object detection

Liuetal.sresearchproposesPVConvNet,amethodthataddressesLiDARpointcloudlimitationsbycombiningpixel-voxelsparseconvolutions,noise-resistantencoding,andaunifiedRoIpoolingstrategy.PVConvNetimproves3Ddetectionaccuracy,achieving86.92%mAPontheKITTItestset,outperformingexistingmultimodalmethods.

Liu, H., Du, J., Zhang, Y., Zhang, H., & Zeng, J. (2024). PVConvNet: Pixel-Voxel Sparse Convolution for multimodal 3D object detection. Pattern Recognition, 149(110284), 110284. https://doi.org/10.1016/j.patcog.2024.110284

当前的仅使用激光雷达(LiDAR)的3D检测方法不可避免地受到点云稀疏性和语义信息不足的影响。为了缓解这一困难,最近的提案通过深度补全使LiDAR点云变得更密集,然后在数据级或结果级进行与图像像素的特征融合。然而,这些方法通常在融合效果和对图像信息在体素特征级融合方面的不充分利用方面存在问题。与此同时,由于深度补全的不准确性引入的噪声显著降低了检测的准确性。在本文中,我们提出了PVConvNet,这是一个用于多模态特征融合的统一框架,巧妙地结合了LiDAR点云、虚拟点和图像像素。首先,我们开发了一种高效的像素-体素稀疏卷积(PVConv),用于对点云和图像进行体素级特征融合。其次,我们设计了一种抗噪稀疏扩张卷积(NRDConv),用于对虚拟点的体素特征进行编码,有效降低噪声的影响。最后,我们提出了一种统一的RoI池化策略,即多模态体素-RoI池化,以提高提案细化的准确性。我们在广泛使用的KITTI数据集和更具挑战性的nuScenes数据集上评估了PVConvNet。实验结果显示,我们的方法在KITTI测试集上实现了86.92%的中等3D平均精度,优于现有的基于多模态的方法。

在这里插入图片描述
图1. 基于像素-体素稀疏卷积的多模态3D目标检测的统一框架示意图。PVConvNet通过四个堆叠的下采样PVConv执行图像和点云的主干特征提取,并生成用于3D检测的3D提案。PVConv对图像和点

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值