- 博客(17)
- 收藏
- 关注
原创 【论文阅读分享】AAAI2024 SimDistill: Simulated Multi-modal Distillation for BEV 3D Object Detection
本文提出SimDistill方法,通过同构多模态教师-学生架构实现知识蒸馏,解决仅靠多视角相机进行3D检测时几何信息不足的问题。学生模型仅使用图像输入,通过几何补偿模块学习教师的多模态特征,在BEV空间进行单模态、跨模态和多模态融合蒸馏。具体采用UV空间和BEV空间的双重几何补偿机制,并设计模态内、跨模态和多模态融合三种蒸馏策略,使纯视觉模型能有效学习LiDAR的几何知识,显著提升3D检测性能。代码已开源。
2025-10-08 18:03:25
956
原创 【论文阅读分享】TPAMI2025 Advancing 3D Object Detection with Depth-aware Spatial Knowledge Distillation
本文提出DK3D框架,通过深度感知知识蒸馏提升单目3D目标检测性能。针对深度辅助和非深度依赖两类学生模型,分别设计特权教师指导策略:对于深度辅助模型,教师利用真实深度优化学生的深度估计;对于非深度依赖模型,通过视觉-深度关联模块传递隐式深度知识。关键创新包括深度感知特征对齐模块和目标感知空间响应蒸馏,采用对抗训练和交叉注意力机制增强特征迁移效率。实验表明该方法能有效缓解单目检测的深度歧义问题,显著提升检测精度。
2025-10-08 16:44:04
1078
原创 Openpcdet安装简约版
本文记录了OpenPCDet深度学习框架的环境配置与使用过程。主要内容包括:1)通过conda创建Python3.8虚拟环境;2)安装spconv、PyTorch(CUDA11.3)等依赖库;3)配置OpenPCDet并进行KITTI数据集预处理;4)解决安装过程中常见的报错问题(如缺少av2、kornia等模块);5)单卡训练PV-RCNN模型及测试可视化;6)补充了mayavi安装和pip换源等实用技巧。文中详细列出了各步骤的具体命令和常见错误的解决方案,为3D目标检测任务提供了完整的环境搭建指南。
2025-10-07 20:13:19
1249
原创 【论文阅读分享】ICLR2023 BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection
本文提出BEVDistill框架,通过跨模态知识蒸馏解决多视图3D目标检测中的深度信息缺失问题。该方法将LiDAR探测器作为教师模型,在鸟瞰图(BEV)空间统一图像与点云特征表示,采用前景感知的高斯加权特征蒸馏和基于互信息的实例蒸馏,有效传递跨模态知识。其中,密集特征蒸馏通过前景引导掩码聚焦关键区域,稀疏实例蒸馏则利用质量分数加权避免噪声干扰,并引入互信息最大化来捕捉深层表示的结构依赖。实验表明该方法在不增加推理开销的情况下,显著提升了基于图像的多视图3D检测性能。
2025-10-07 19:12:45
1047
原创 【可视化】深度学习——热力图
本文介绍两种基于OpenCV的高效特征图可视化方法。针对CNN和多模态模型生成的GPU特征图,提出单通道热力图和通道平均热力图两种方案。前者逐个通道生成彩色热力图,支持阈值过滤和尺寸调整;后者通过通道平均生成综合热力图,快速定位模型关注区域。两种方法均利用GPU计算优势,通过OpenCV实现高效的图像处理和可视化,比传统Matplotlib方法更适用于大规模特征图分析。代码提供阈值调节、归一化和后处理功能,能清晰展示模型的响应分布特征。
2025-10-07 18:20:33
817
原创 【论文阅读分享】NeurIPS 24 VeXKD: The Versatile Integration of Cross-Modal Fusion and Knowledge Distillation
VeXKD提出了一种高效的多模态3D感知知识蒸馏框架,通过BEV特征融合与蒸馏优化检测性能。其核心创新包括:1)设计MGFM模块,利用变形注意力实现跨模态特征交互;2)提出BEV查询引导的掩码生成方法,聚焦关键区域蒸馏;3)结合注意力迁移损失缓解模型异质性。该方法在保持实时性的同时,通过模态共识特征蒸馏显著提升学生模型性能,避免了传统多模态融合的复杂度问题。实验表明,基于BEV的蒸馏策略能有效迁移教师模型知识,且不增加推理开销。
2025-10-06 16:02:38
695
原创 【论文阅读分享】CVPR2024 CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distilla
摘要:本文提出CRKD框架,通过跨模态知识蒸馏提升相机-雷达系统的3D目标检测性能。针对激光雷达成本高的问题,该方法利用激光雷达+相机(LC)教师模型指导雷达+相机(RC)学生模型,设计了四种蒸馏策略:1)跨阶段雷达蒸馏(CSRD)学习场景级目标分布;2)尺寸掩码蒸馏解决特征错位问题;3)关系蒸馏保持特征相似性;4)响应蒸馏结合QualityFocalLoss优化检测质量。实验表明该方法有效缩小了RC与LC系统的性能差距,其中场景级热图学习和QFL损失设计具有创新性。(149字)
2025-10-06 15:51:52
663
原创 【论文阅读分享】Adversarial Learning based Knowledge Distillation on 3D Point Clouds WACV2025
本文提出PointKAD框架,通过对抗学习实现点云知识的高效蒸馏。针对现有点云知识蒸馏方法训练成本高、特征提取效率低的问题,该方法采用双判别器机制:特征判别器指导学生网络生成与教师模型匹配的特征分布,响应判别器通过对抗训练使学生的输出分布逼近教师模型。通过交替训练策略,在固定判别器时优化学生网络,固定学生网络时优化判别器,确保训练稳定性。实验表明该方法能有效提升轻量模型性能,并支持跨任务和跨模态迁移。
2025-10-05 21:43:26
582
原创 【论文阅读分享】CVPR2023:Self-Supervised Image-to-Point Distillation via Semantically Tolerant Contrastive
本文提出了一种自监督的图像-点云特征蒸馏方法,通过语义容忍对比损失解决跨模态学习中的两个关键问题。针对结构相似性导致的语义混淆,设计了基于超像素相似度的对比损失重加权机制,减轻同类实例间的惩罚力度;针对类别不平衡问题,引入语义相似性聚合策略,通过归一化权重增强少数类别的学习。方法结合SLIC分割算法,将图像和点云特征投影到统一空间,利用超像素/超点相似度指导对比学习。实验表明,该方法能有效保持局部语义一致性并缓解类别偏差,为跨模态表征学习提供了新思路。
2025-10-05 20:43:54
913
原创 【论文阅读分享】SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection
《SCKD:半监督跨模态知识蒸馏在4D雷达目标检测中的应用》提出了一种解决4D毫米波雷达点云稀疏、噪声大且标签数据匮乏的方法。该方法通过教师-学生网络架构,利用激光雷达(LiDAR)引导雷达特征学习:1)采用稀疏卷积提取双模态特征,并通过自适应权重融合;2)引入模态丢弃机制增强鲁棒性;3)设计了特征级(LiDAR到雷达、融合到雷达)和输出级(基于置信度筛选伪标签)的蒸馏策略。实验表明,该方法有效提升了雷达目标检测性能,代码已开源。
2025-06-22 17:19:45
363
1
原创 【论文阅读分享】L4DR: LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection
首先对于Radar的数据会进行前景点预测,即FAD,以去除噪声点的影响。随后通过MME模块对Radar和LiDAR的特征进行交互补充。最后在BEV特征图上进行多层次的门控特征融合,最后送到检测头中输出检测结果。
2025-06-22 10:57:32
1471
1
原创 【论文阅读分享】3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View ..........
低级 LiDAR 特征和摄像头特征使用基于感兴趣区域 (RoI) 的特征池分别池化,并与联合摄像头 LiDAR 特征融合,以增强提案优化。其中集合 {fm,n} 对应于最接近(ˆ x+ ∆x, ˆ y + ∆y)的四个相邻特征像素,wm,n 是通过插值方法获得的权重。体素中心投影到相机视图平面中的(ˆ x, ˆ y),并且 (ˆ x, ˆ y) 由校准偏移量 (∆x, ∆y) 进行调整。,将 2D 相机特征转换为平滑的空间特征图,与鸟瞰图 (BEV) 域中的 LiDAR 特征具有最高的对应关系。
2024-08-30 14:33:55
713
1
原创 【论文阅读分享】Point Density-Aware Voxels for LiDAR 3D Object Detection
点密度感知体素网络 (PDV),是一种端到端的两阶段LiDAR 3D 对象检测架构,旨在考虑这些点密度变化。通过体素点质心有效地定位3D 稀疏卷积主干中的体素特征。通过使用核密度估计(KDE)和带有点密度位置编码的自我注意的密度感知 RoI 网格池模块聚合空间定位的体素特征。利用LiDAR 的点密度与距离关系来优化最终的边界框置信度。
2024-08-30 13:37:35
945
1
原创 【论文阅读分享】LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion
对投影网格点周围的图像特征进行采样,以便与位置修饰的点云特征融合,从而最大限度地利用围绕提案的丰富上下文信息。FDA 实现了全局和局部融合特征之间的信息交互,从而产生了信息量更大的多模态特征。Fs虽然包含了不同来源的特征信息,但交互不充分,因此引入了自注意力机制,自适应的构建不同网格点特征之间的关系,增强信息交互。特征动态聚合(FDA): 实现这些局部和全局融合特征之间的信息交互,从而产生信息量更大的多模态特征。自注意力机制选择图像中与点云的高相关性特征,随后与点云特征进行融合。最后进行包围框预测等。
2024-08-29 14:06:29
1247
1
原创 【论文阅读分享】Focal Sparse Convolutional Networks for 3D Object Detection
主要介绍了一下三种卷积的一个理解,理解不全请见谅,互相讨论学习
2024-08-19 14:53:12
784
1
空空如也
K-Radar数据集怎么下载和使用
2025-04-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅