- 博客(12)
- 收藏
- 关注
原创 BEVFormer算法及代码解析
BEVFormer是一种基于Transformer的BEV感知算法,通过多视角相机输入构建BEV特征图。其核心模块包括时空自注意力(TSA)和空间交叉注意力(SCA),分别用于时序特征融合和多视角图像特征投影。算法采用可学习的BEV查询作为初始特征,通过6层编码器迭代优化,最终输出可用于3D检测或分割的BEV特征。关键创新点包括:1)时序对齐模块处理自车运动;2)可变形注意力机制实现高效特征采样;3)多尺度特征融合策略。代码实现中包含了网格掩码数据增强、可学习位置编码等细节设计,为后续BEV研究提供了重要参
2025-10-20 16:16:18
1082
原创 GUPNet原理解析
GUPNet是一种基于单目图像的3D目标检测网络,采用两阶段框架:首先通过2D检测头获取2D框,再通过ROI特征和几何投影预测3D信息。核心创新包括:1)基于小孔成像原理的深度预测模块,引入几何不确定度概念;2)采用Hierarchical Task Learning(HTL)策略,通过评估前置任务状态动态调整当前任务权重。网络输出包含目标类别、2D/3D框等属性,其中3D预测通过热图、偏移量和尺寸回归实现,深度计算结合投影几何和修正值。损失函数设计涵盖热图(Focal Loss)、偏移量(L1 Loss)
2025-10-18 21:59:15
823
原创 LSS原理及代码解析
BEV感知的核心思想是将多路传感器的感知数据转换到统一的BEV空间去提取特征,实现目标检测、语义分割、地图构建等任务,对于相机感知模块,转向BEV空间可带来很大的收益,主要体现在三个方面:目前BEV感知主要出现了3类视图转换模块的方案:IPM(Inverse Perspective Mapping)、Lift-splat和Transformer。本文主要对基于Lift-splat(后文简称LS或LSS)的方案进行解析。LSS是英伟达(NVIDIA)在ECCV2020上发表的文章(Lift,Splat,Sho
2024-12-22 09:48:40
1313
转载 Tensorboard的使用 ---- SummaryWriter类(pytorch版)
在进行模型训练时,对训练进行可视化可以帮助我们更直观查看模型训练情况,从而更容易发现问题。本文用到的方法为tensorboard可视化方法。
2023-02-12 11:06:20
8860
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅