【3D目标检测】WEAKM3D: TOWARDS WEAKLY SUPERVISEDMONOCULAR 3D OBJECT DETECTION

文章提出了使用2D检测框对应的点云作为监督信号,通过设计几何目标点云对齐损失、射线追踪损失和基于点密度的点级损失,实现对3D边界框预测的优化。这种方法减少了对昂贵的3D标注的依赖,并通过解耦边界框参数预测来提高定位和定向的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

【2022】【WEAKM3D】
研究的问题:

  • 核心问题:如何以2D检测框对应的目标点云作为监督信号进行弱监督学习,训练一个单目3D目标检测网络
  • 模型产生预测框之后,如何设计损失衡量预测边界框与目标点云之间的距离。
  • 如何从点云中获取相关参数的监督信号

解决的方法:

  • 基于点密度的点级损失平衡,包括几何目标点云对齐损失以及射线追踪损失
  • 给出了位置、偏航角和尺寸的监督信号设计方案。

细节

背景

3D目标检测的标注就是3D边界框,它是从点云出发得到的,但是得到的过程非常耗时且昂贵。因此,如果能直接用点云进行单目3D目标检测网络的训练,会大大降低成本。
标注的变化:一个目标原先的标注是3D边界框,作者提出的弱监督学习方案中的标注是2D检测框对应的目标点云。
训练目标的变化: 原先训练的目标是模型预测的7个参数和标注3D边界框对应的7个参数尽可能的接近,产生的3D边界框和标注的3D边界框尽可能的一致作者方案下的训练目标是模型预测的7个参数和从点云中获取的7个参数尽可能的接近,产生的3D边界框尽可能的贴合目标点云。
最大的问题:

  • 模型产生预测框之后,如何设计损失衡量预测边界框与目标点云之间的距离。
  • 如何从点云中获取相关参数的监督信号

算法流程

推理阶段:

  • 一个3D特征提取器提取特征

  • 一个2D检测器检测2D边界框

  • 获取2D边界框对应的特征

  • 回归3D边界框的相关参数
    在这里插入图片描述
    训练阶段:

  • 使用RANSAC算法去除原始点云中的接地点

  • 将点云投影到图像坐标系下,获取2D边界框中的点云(包含目标点云以及一些背景点云)

  • 用一个无监督的目标聚类算法得到目标点云

  • 计算预测边界框与目标点云之间的损失

最终损失

损失是在鸟瞰图上逐点计算的,主要包含三部分:一是平衡损失,二是位置预测损失,三是偏航角的损失,二是这样:计算目标点云的平均纵坐标Y作为目标的Y坐标监督信号(不需要x吗?),是为了进一步提高位置的预测。
在这里插入图片描述
后面是论文的主体,就是这个平衡损失怎么来,平衡损失其实描述了核心任务,就是3D边界框的位置和尺寸,第二个损失作者一句话带过,就是为了进一步提高位置的预测,第三个损失就是3D边界框的最后一部分:偏航角。

几何目标点云对齐损失

目标:预测的3D边界框应该包含目标点云并且与目标点云的边缘对齐
最朴素的想法就是最小化边界框中心点到每个点的欧式距离,但这并不合理,因为这会让网络将点云的中心作为3D边界框的中心,而点云是从目标的表面获取的,这样会让预测边界框的中心趋向于真实边界框的边缘。
具体例子如下:预测产生的边界框与真实边界框差距很大
在这里插入图片描述

作者的想法:发出一条从3D边界框的中心 P 3 d P_{3d} P3d到目标点云 P P P的射线,交3D边界框的边缘 P I P_I PI,然后最小化 P P P P I P_I PI之间的距离
在这里插入图片描述
在这里插入图片描述
作者没有直接预测3D边界框的中心点坐标,而是预测其在图像坐标系下的投影以及对应的深度z,然后组合成中心点坐标。

射线追踪损失

对齐模糊问题:目标点云无法表示出目标的3D轮廓,难以对齐。例子就是:获得的目标点云只有一个表面的点,不知道该通过3D边界框的哪个表面去和他对齐。
具体例子如下:这两个边界框具有相同的几何对齐损失,但是3D位置大不相同,我们不确定到底哪个边界框是更好的预测
在这里插入图片描述

目标:上面一个损失只考虑了几何信息,这个损失考虑一些语义上的因素
作者考虑到遮挡约束,发出一条从相机光心 P c a r m P_{carm} Pcarm到目标点云 P P P的射线,交3D边界框的边缘 P R P_R PR,然后最小化 P P P P R P_R PR之间的距离,如果 P R P_R PR有多个,我们只取其中与相机光心最接近的一个点;若没有交点,则不计算损失。
在这里插入图片描述
在这里插入图片描述

基于点密度的点级损失平衡

背景:点云分布是不均匀的,也就是有些地方点密度大,有些地方点密度小,这就会导致点密度大的区域贡献更大的损失而点密度小的区域贡献更少损失,因此需要考虑点密度进行损失平衡。
具体做法:先计算点密度,然后基于点密度平衡损失

计算点密度:
在这里插入图片描述
基于点密度平衡损失
在这里插入图片描述
示意图
在这里插入图片描述

边界框参数预测的解耦

我的理解是以往采用3D边界框标注的时候,可以通过每组预测和相应的标签之间添加损失实现对边界框参数预测的解耦。
我理解的解耦指的是:各个部分参数预测对整个任务的贡献,比如位置预测提升是否能带来评价指标的提升,以及能提升多少。

方向:目标点云是目标的部分3D轮廓,隐式指出目标的方向。作者通过目标点对的方向获得目标的方向,具体做法就是计算每个目标点对的方向,然后绘制直方图,直方图中最主要的方向就是目标方向,也就是方向的监督信号。
在这里插入图片描述

### AODRaw在不同条件下的RAW对象检测 AODRaw 是一种专注于处理原始图像数据(RAW 数据)的对象检测方法。其设计目标是在不依赖传统 JPEG 或其他压缩格式的情况下,直接从相机传感器捕获的 RAW 图像中提取特征并完成对象检测任务。这种方法的优势在于能够保留更多的细节信息,从而提高检测精度。 #### 原始点云与网格模型的关系 尽管 AODRaw 的主要应用场景并非点云或网格结构的数据,但可以借鉴类似的理论基础来理解其工作原理。例如,在三维重建领域,点云表示物体为空间中的离散点集合[^1]。然而,由于缺乏连接性信息,这些点之间的关系难以被有效利用。相比之下,基于网格的方法通过定义顶点间的拓扑关系提供了更丰富的几何描述。这种对比启发我们思考如何在二维平面内构建像素级关联以增强 RAW 数据的表现力。 #### 高效架构搜索策略的应用 为了优化 AODRaw 的性能表现,研究者引入了一种名为 RANK-NOSH 的高效预测器驱动型神经网络架构搜索算法[^2]。该技术采用非均匀连续削减机制筛选候选解空间内的潜在优秀配置方案,并结合排名估计进一步缩小探索范围直至找到最优子网结构为止。此过程显著降低了计算成本的同时还保持了较高的准确性水平。 #### 边缘设备上的AI模型管理实践 当考虑将 AODRaw 应用于实际场景时,则不可避免地涉及到部署于资源受限环境(如移动终端)上运行这一挑战。此时就需要一套完善的解决方案来进行有效的版本控制、实时监控以及周期性的参数调整操作[^3]。只有这样才能确保即使面对不断变化的实际拍摄状况也能维持稳定可靠的识别效果。 以下是针对上述讨论提出的几个具体实现方向或者改进思路: ```python import torch.nn as nn class AODRawDetector(nn.Module): def __init__(self, backbone='resnet', num_classes=80): super(AODRawDetector, self).__init__() # Backbone initialization based on selected architecture. if backbone == 'resnet': from torchvision.models import resnet50 self.backbone = resnet50(pretrained=True) elif backbone == 'custom': pass # Customized lightweight network design here. # Additional layers tailored specifically towards handling raw image inputs. self.raw_preprocessor = nn.Sequential( nn.Conv2d(in_channels=4, out_channels=64, kernel_size=7), nn.ReLU(), ... ) def forward(self, x): processed_x = self.raw_preprocessor(x) features = self.backbone(processed_x) return features ``` 以上代码片段展示了一个简化版的 AODRaw 检测框架雏形。其中包含了预处理器模块用来适配来自 CMOS/CCD 芯片未经加工过的四通道 Bayer Pattern 输入;同时也预留接口允许替换不同的骨干网络组件满足特定需求。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值