自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 【论文阅读分享】AAAI2024 SimDistill: Simulated Multi-modal Distillation for BEV 3D Object Detection

本文提出SimDistill方法,通过同构多模态教师-学生架构实现知识蒸馏,解决仅靠多视角相机进行3D检测时几何信息不足的问题。学生模型仅使用图像输入,通过几何补偿模块学习教师的多模态特征,在BEV空间进行单模态、跨模态和多模态融合蒸馏。具体采用UV空间和BEV空间的双重几何补偿机制,并设计模态内、跨模态和多模态融合三种蒸馏策略,使纯视觉模型能有效学习LiDAR的几何知识,显著提升3D检测性能。代码已开源。

2025-10-08 18:03:25 956

原创 【论文阅读分享】TPAMI2025 Advancing 3D Object Detection with Depth-aware Spatial Knowledge Distillation

本文提出DK3D框架,通过深度感知知识蒸馏提升单目3D目标检测性能。针对深度辅助和非深度依赖两类学生模型,分别设计特权教师指导策略:对于深度辅助模型,教师利用真实深度优化学生的深度估计;对于非深度依赖模型,通过视觉-深度关联模块传递隐式深度知识。关键创新包括深度感知特征对齐模块和目标感知空间响应蒸馏,采用对抗训练和交叉注意力机制增强特征迁移效率。实验表明该方法能有效缓解单目检测的深度歧义问题,显著提升检测精度。

2025-10-08 16:44:04 1078

原创 Openpcdet安装简约版

本文记录了OpenPCDet深度学习框架的环境配置与使用过程。主要内容包括:1)通过conda创建Python3.8虚拟环境;2)安装spconv、PyTorch(CUDA11.3)等依赖库;3)配置OpenPCDet并进行KITTI数据集预处理;4)解决安装过程中常见的报错问题(如缺少av2、kornia等模块);5)单卡训练PV-RCNN模型及测试可视化;6)补充了mayavi安装和pip换源等实用技巧。文中详细列出了各步骤的具体命令和常见错误的解决方案,为3D目标检测任务提供了完整的环境搭建指南。

2025-10-07 20:13:19 1249

原创 【论文阅读分享】ICLR2023 BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection

本文提出BEVDistill框架,通过跨模态知识蒸馏解决多视图3D目标检测中的深度信息缺失问题。该方法将LiDAR探测器作为教师模型,在鸟瞰图(BEV)空间统一图像与点云特征表示,采用前景感知的高斯加权特征蒸馏和基于互信息的实例蒸馏,有效传递跨模态知识。其中,密集特征蒸馏通过前景引导掩码聚焦关键区域,稀疏实例蒸馏则利用质量分数加权避免噪声干扰,并引入互信息最大化来捕捉深层表示的结构依赖。实验表明该方法在不增加推理开销的情况下,显著提升了基于图像的多视图3D检测性能。

2025-10-07 19:12:45 1047

原创 【可视化】深度学习——热力图

本文介绍两种基于OpenCV的高效特征图可视化方法。针对CNN和多模态模型生成的GPU特征图,提出单通道热力图和通道平均热力图两种方案。前者逐个通道生成彩色热力图,支持阈值过滤和尺寸调整;后者通过通道平均生成综合热力图,快速定位模型关注区域。两种方法均利用GPU计算优势,通过OpenCV实现高效的图像处理和可视化,比传统Matplotlib方法更适用于大规模特征图分析。代码提供阈值调节、归一化和后处理功能,能清晰展示模型的响应分布特征。

2025-10-07 18:20:33 817

原创 【论文阅读分享】NeurIPS 24 VeXKD: The Versatile Integration of Cross-Modal Fusion and Knowledge Distillation

VeXKD提出了一种高效的多模态3D感知知识蒸馏框架,通过BEV特征融合与蒸馏优化检测性能。其核心创新包括:1)设计MGFM模块,利用变形注意力实现跨模态特征交互;2)提出BEV查询引导的掩码生成方法,聚焦关键区域蒸馏;3)结合注意力迁移损失缓解模型异质性。该方法在保持实时性的同时,通过模态共识特征蒸馏显著提升学生模型性能,避免了传统多模态融合的复杂度问题。实验表明,基于BEV的蒸馏策略能有效迁移教师模型知识,且不增加推理开销。

2025-10-06 16:02:38 695

原创 【论文阅读分享】CVPR2024 CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distilla

摘要:本文提出CRKD框架,通过跨模态知识蒸馏提升相机-雷达系统的3D目标检测性能。针对激光雷达成本高的问题,该方法利用激光雷达+相机(LC)教师模型指导雷达+相机(RC)学生模型,设计了四种蒸馏策略:1)跨阶段雷达蒸馏(CSRD)学习场景级目标分布;2)尺寸掩码蒸馏解决特征错位问题;3)关系蒸馏保持特征相似性;4)响应蒸馏结合QualityFocalLoss优化检测质量。实验表明该方法有效缩小了RC与LC系统的性能差距,其中场景级热图学习和QFL损失设计具有创新性。(149字)

2025-10-06 15:51:52 663

原创 【论文阅读分享】Adversarial Learning based Knowledge Distillation on 3D Point Clouds WACV2025

本文提出PointKAD框架,通过对抗学习实现点云知识的高效蒸馏。针对现有点云知识蒸馏方法训练成本高、特征提取效率低的问题,该方法采用双判别器机制:特征判别器指导学生网络生成与教师模型匹配的特征分布,响应判别器通过对抗训练使学生的输出分布逼近教师模型。通过交替训练策略,在固定判别器时优化学生网络,固定学生网络时优化判别器,确保训练稳定性。实验表明该方法能有效提升轻量模型性能,并支持跨任务和跨模态迁移。

2025-10-05 21:43:26 582

原创 【论文阅读分享】CVPR2023:Self-Supervised Image-to-Point Distillation via Semantically Tolerant Contrastive

本文提出了一种自监督的图像-点云特征蒸馏方法,通过语义容忍对比损失解决跨模态学习中的两个关键问题。针对结构相似性导致的语义混淆,设计了基于超像素相似度的对比损失重加权机制,减轻同类实例间的惩罚力度;针对类别不平衡问题,引入语义相似性聚合策略,通过归一化权重增强少数类别的学习。方法结合SLIC分割算法,将图像和点云特征投影到统一空间,利用超像素/超点相似度指导对比学习。实验表明,该方法能有效保持局部语义一致性并缓解类别偏差,为跨模态表征学习提供了新思路。

2025-10-05 20:43:54 913

原创 K-Radar数据集的下载与使用

针对K-radar数据集太大,没有办法完全下载进行了说明,如果是做关于Radar目标检测方向的话可以参考。

2025-08-17 19:46:11 885

原创 【论文阅读分享】SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection

《SCKD:半监督跨模态知识蒸馏在4D雷达目标检测中的应用》提出了一种解决4D毫米波雷达点云稀疏、噪声大且标签数据匮乏的方法。该方法通过教师-学生网络架构,利用激光雷达(LiDAR)引导雷达特征学习:1)采用稀疏卷积提取双模态特征,并通过自适应权重融合;2)引入模态丢弃机制增强鲁棒性;3)设计了特征级(LiDAR到雷达、融合到雷达)和输出级(基于置信度筛选伪标签)的蒸馏策略。实验表明,该方法有效提升了雷达目标检测性能,代码已开源。

2025-06-22 17:19:45 363 1

原创 【论文阅读分享】L4DR: LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection

首先对于Radar的数据会进行前景点预测,即FAD,以去除噪声点的影响。随后通过MME模块对Radar和LiDAR的特征进行交互补充。最后在BEV特征图上进行多层次的门控特征融合,最后送到检测头中输出检测结果。

2025-06-22 10:57:32 1471 1

原创 稀疏卷积理解【全新升级】

三维稀疏卷积的小小理解

2024-09-21 15:25:20 520

原创 【论文阅读分享】3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View ..........

低级 LiDAR 特征和摄像头特征使用基于感兴趣区域 (RoI) 的特征池分别池化,并与联合摄像头 LiDAR 特征融合,以增强提案优化。其中集合 {fm,n} 对应于最接近(ˆ x+ ∆x, ˆ y + ∆y)的四个相邻特征像素,wm,n 是通过插值方法获得的权重。体素中心投影到相机视图平面中的(ˆ x, ˆ y),并且 (ˆ x, ˆ y) 由校准偏移量 (∆x, ∆y) 进行调整。,将 2D 相机特征转换为平滑的空间特征图,与鸟瞰图 (BEV) 域中的 LiDAR 特征具有最高的对应关系。

2024-08-30 14:33:55 713 1

原创 【论文阅读分享】Point Density-Aware Voxels for LiDAR 3D Object Detection

点密度感知体素网络 (PDV),是一种端到端的两阶段LiDAR 3D 对象检测架构,旨在考虑这些点密度变化。通过体素点质心有效地定位3D 稀疏卷积主干中的体素特征。通过使用核密度估计(KDE)和带有点密度位置编码的自我注意的密度感知 RoI 网格池模块聚合空间定位的体素特征。利用LiDAR 的点密度与距离关系来优化最终的边界框置信度。

2024-08-30 13:37:35 945 1

原创 【论文阅读分享】LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion

对投影网格点周围的图像特征进行采样,以便与位置修饰的点云特征融合,从而最大限度地利用围绕提案的丰富上下文信息。FDA 实现了全局和局部融合特征之间的信息交互,从而产生了信息量更大的多模态特征。Fs虽然包含了不同来源的特征信息,但交互不充分,因此引入了自注意力机制,自适应的构建不同网格点特征之间的关系,增强信息交互。特征动态聚合(FDA): 实现这些局部和全局融合特征之间的信息交互,从而产生信息量更大的多模态特征。自注意力机制选择图像中与点云的高相关性特征,随后与点云特征进行融合。最后进行包围框预测等。

2024-08-29 14:06:29 1247 1

原创 【论文阅读分享】Focal Sparse Convolutional Networks for 3D Object Detection

主要介绍了一下三种卷积的一个理解,理解不全请见谅,互相讨论学习

2024-08-19 14:53:12 784 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除