AtlasWei_3D-优快云博客

原创【论文阅读分享】AAAI2024 SimDistill: Simulated Multi-modal Distillation for BEV 3D Object Detection

本文提出SimDistill方法，通过同构多模态教师-学生架构实现知识蒸馏，解决仅靠多视角相机进行3D检测时几何信息不足的问题。学生模型仅使用图像输入，通过几何补偿模块学习教师的多模态特征，在BEV空间进行单模态、跨模态和多模态融合蒸馏。具体采用UV空间和BEV空间的双重几何补偿机制，并设计模态内、跨模态和多模态融合三种蒸馏策略，使纯视觉模型能有效学习LiDAR的几何知识，显著提升3D检测性能。代码已开源。

2025-10-08 18:03:25 956

原创【论文阅读分享】TPAMI2025 Advancing 3D Object Detection with Depth-aware Spatial Knowledge Distillation

本文提出DK3D框架，通过深度感知知识蒸馏提升单目3D目标检测性能。针对深度辅助和非深度依赖两类学生模型，分别设计特权教师指导策略：对于深度辅助模型，教师利用真实深度优化学生的深度估计；对于非深度依赖模型，通过视觉-深度关联模块传递隐式深度知识。关键创新包括深度感知特征对齐模块和目标感知空间响应蒸馏，采用对抗训练和交叉注意力机制增强特征迁移效率。实验表明该方法能有效缓解单目检测的深度歧义问题，显著提升检测精度。

2025-10-08 16:44:04 1078

原创 Openpcdet安装简约版

本文记录了OpenPCDet深度学习框架的环境配置与使用过程。主要内容包括：1）通过conda创建Python3.8虚拟环境；2）安装spconv、PyTorch(CUDA11.3)等依赖库；3）配置OpenPCDet并进行KITTI数据集预处理；4）解决安装过程中常见的报错问题（如缺少av2、kornia等模块）；5）单卡训练PV-RCNN模型及测试可视化；6）补充了mayavi安装和pip换源等实用技巧。文中详细列出了各步骤的具体命令和常见错误的解决方案，为3D目标检测任务提供了完整的环境搭建指南。

2025-10-07 20:13:19 1249

原创【论文阅读分享】ICLR2023 BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection

本文提出BEVDistill框架，通过跨模态知识蒸馏解决多视图3D目标检测中的深度信息缺失问题。该方法将LiDAR探测器作为教师模型，在鸟瞰图(BEV)空间统一图像与点云特征表示，采用前景感知的高斯加权特征蒸馏和基于互信息的实例蒸馏，有效传递跨模态知识。其中，密集特征蒸馏通过前景引导掩码聚焦关键区域，稀疏实例蒸馏则利用质量分数加权避免噪声干扰，并引入互信息最大化来捕捉深层表示的结构依赖。实验表明该方法在不增加推理开销的情况下，显著提升了基于图像的多视图3D检测性能。

2025-10-07 19:12:45 1047

原创【可视化】深度学习——热力图

本文介绍两种基于OpenCV的高效特征图可视化方法。针对CNN和多模态模型生成的GPU特征图，提出单通道热力图和通道平均热力图两种方案。前者逐个通道生成彩色热力图，支持阈值过滤和尺寸调整；后者通过通道平均生成综合热力图，快速定位模型关注区域。两种方法均利用GPU计算优势，通过OpenCV实现高效的图像处理和可视化，比传统Matplotlib方法更适用于大规模特征图分析。代码提供阈值调节、归一化和后处理功能，能清晰展示模型的响应分布特征。

2025-10-07 18:20:33 817

原创【论文阅读分享】NeurIPS 24 VeXKD: The Versatile Integration of Cross-Modal Fusion and Knowledge Distillation

VeXKD提出了一种高效的多模态3D感知知识蒸馏框架，通过BEV特征融合与蒸馏优化检测性能。其核心创新包括：1）设计MGFM模块，利用变形注意力实现跨模态特征交互；2）提出BEV查询引导的掩码生成方法，聚焦关键区域蒸馏；3）结合注意力迁移损失缓解模型异质性。该方法在保持实时性的同时，通过模态共识特征蒸馏显著提升学生模型性能，避免了传统多模态融合的复杂度问题。实验表明，基于BEV的蒸馏策略能有效迁移教师模型知识，且不增加推理开销。

2025-10-06 16:02:38 695

原创【论文阅读分享】CVPR2024 CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distilla

摘要：本文提出CRKD框架，通过跨模态知识蒸馏提升相机-雷达系统的3D目标检测性能。针对激光雷达成本高的问题，该方法利用激光雷达+相机（LC）教师模型指导雷达+相机（RC）学生模型，设计了四种蒸馏策略：1）跨阶段雷达蒸馏（CSRD）学习场景级目标分布；2）尺寸掩码蒸馏解决特征错位问题；3）关系蒸馏保持特征相似性；4）响应蒸馏结合QualityFocalLoss优化检测质量。实验表明该方法有效缩小了RC与LC系统的性能差距，其中场景级热图学习和QFL损失设计具有创新性。（149字）

2025-10-06 15:51:52 663

原创【论文阅读分享】Adversarial Learning based Knowledge Distillation on 3D Point Clouds WACV2025

本文提出PointKAD框架，通过对抗学习实现点云知识的高效蒸馏。针对现有点云知识蒸馏方法训练成本高、特征提取效率低的问题，该方法采用双判别器机制：特征判别器指导学生网络生成与教师模型匹配的特征分布，响应判别器通过对抗训练使学生的输出分布逼近教师模型。通过交替训练策略，在固定判别器时优化学生网络，固定学生网络时优化判别器，确保训练稳定性。实验表明该方法能有效提升轻量模型性能，并支持跨任务和跨模态迁移。

2025-10-05 21:43:26 582

原创【论文阅读分享】CVPR2023:Self-Supervised Image-to-Point Distillation via Semantically Tolerant Contrastive

本文提出了一种自监督的图像-点云特征蒸馏方法，通过语义容忍对比损失解决跨模态学习中的两个关键问题。针对结构相似性导致的语义混淆，设计了基于超像素相似度的对比损失重加权机制，减轻同类实例间的惩罚力度；针对类别不平衡问题，引入语义相似性聚合策略，通过归一化权重增强少数类别的学习。方法结合SLIC分割算法，将图像和点云特征投影到统一空间，利用超像素/超点相似度指导对比学习。实验表明，该方法能有效保持局部语义一致性并缓解类别偏差，为跨模态表征学习提供了新思路。

2025-10-05 20:43:54 913

原创 K-Radar数据集的下载与使用

针对K-radar数据集太大，没有办法完全下载进行了说明，如果是做关于Radar目标检测方向的话可以参考。

2025-08-17 19:46:11 885

原创【论文阅读分享】SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection

《SCKD：半监督跨模态知识蒸馏在4D雷达目标检测中的应用》提出了一种解决4D毫米波雷达点云稀疏、噪声大且标签数据匮乏的方法。该方法通过教师-学生网络架构，利用激光雷达（LiDAR）引导雷达特征学习：1）采用稀疏卷积提取双模态特征，并通过自适应权重融合；2）引入模态丢弃机制增强鲁棒性；3）设计了特征级（LiDAR到雷达、融合到雷达）和输出级（基于置信度筛选伪标签）的蒸馏策略。实验表明，该方法有效提升了雷达目标检测性能，代码已开源。

2025-06-22 17:19:45 363 1

原创【论文阅读分享】L4DR: LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection

首先对于Radar的数据会进行前景点预测，即FAD，以去除噪声点的影响。随后通过MME模块对Radar和LiDAR的特征进行交互补充。最后在BEV特征图上进行多层次的门控特征融合，最后送到检测头中输出检测结果。

2025-06-22 10:57:32 1471 1

原创稀疏卷积理解【全新升级】

三维稀疏卷积的小小理解

2024-09-21 15:25:20 520

原创【论文阅读分享】3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View ..........

低级 LiDAR 特征和摄像头特征使用基于感兴趣区域（RoI）的特征池分别池化，并与联合摄像头 LiDAR 特征融合，以增强提案优化。其中集合 {fm，n} 对应于最接近（ˆ x+ ∆x， ˆ y + ∆y）的四个相邻特征像素，wm，n 是通过插值方法获得的权重。体素中心投影到相机视图平面中的（ˆ x， ˆ y），并且（ˆ x， ˆ y）由校准偏移量（∆x， ∆y）进行调整。，将 2D 相机特征转换为平滑的空间特征图，与鸟瞰图（BEV）域中的 LiDAR 特征具有最高的对应关系。

2024-08-30 14:33:55 713 1

原创【论文阅读分享】Point Density-Aware Voxels for LiDAR 3D Object Detection

点密度感知体素网络（PDV），是一种端到端的两阶段LiDAR 3D 对象检测架构，旨在考虑这些点密度变化。通过体素点质心有效地定位3D 稀疏卷积主干中的体素特征。通过使用核密度估计（KDE）和带有点密度位置编码的自我注意的密度感知 RoI 网格池模块聚合空间定位的体素特征。利用LiDAR 的点密度与距离关系来优化最终的边界框置信度。

2024-08-30 13:37:35 945 1

原创【论文阅读分享】LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion

对投影网格点周围的图像特征进行采样，以便与位置修饰的点云特征融合，从而最大限度地利用围绕提案的丰富上下文信息。FDA 实现了全局和局部融合特征之间的信息交互，从而产生了信息量更大的多模态特征。Fs虽然包含了不同来源的特征信息，但交互不充分，因此引入了自注意力机制，自适应的构建不同网格点特征之间的关系，增强信息交互。特征动态聚合（FDA）：实现这些局部和全局融合特征之间的信息交互，从而产生信息量更大的多模态特征。自注意力机制选择图像中与点云的高相关性特征，随后与点云特征进行融合。最后进行包围框预测等。

2024-08-29 14:06:29 1247 1

原创【论文阅读分享】Focal Sparse Convolutional Networks for 3D Object Detection

主要介绍了一下三种卷积的一个理解，理解不全请见谅，互相讨论学习

2024-08-19 14:53:12 784 1

qq_56014475的博客