redfish95-优快云博客

原创 BEVFormer算法及代码解析

BEVFormer是一种基于Transformer的BEV感知算法，通过多视角相机输入构建BEV特征图。其核心模块包括时空自注意力(TSA)和空间交叉注意力(SCA)，分别用于时序特征融合和多视角图像特征投影。算法采用可学习的BEV查询作为初始特征，通过6层编码器迭代优化，最终输出可用于3D检测或分割的BEV特征。关键创新点包括：1）时序对齐模块处理自车运动；2）可变形注意力机制实现高效特征采样；3）多尺度特征融合策略。代码实现中包含了网格掩码数据增强、可学习位置编码等细节设计，为后续BEV研究提供了重要参

2025-10-20 16:16:18 1084

原创 GUPNet原理解析

GUPNet是一种基于单目图像的3D目标检测网络，采用两阶段框架：首先通过2D检测头获取2D框，再通过ROI特征和几何投影预测3D信息。核心创新包括：1）基于小孔成像原理的深度预测模块，引入几何不确定度概念；2）采用Hierarchical Task Learning（HTL）策略，通过评估前置任务状态动态调整当前任务权重。网络输出包含目标类别、2D/3D框等属性，其中3D预测通过热图、偏移量和尺寸回归实现，深度计算结合投影几何和修正值。损失函数设计涵盖热图（Focal Loss）、偏移量（L1 Loss）

2025-10-18 21:59:15 823

原创 LSS原理及代码解析

BEV感知的核心思想是将多路传感器的感知数据转换到统一的BEV空间去提取特征，实现目标检测、语义分割、地图构建等任务，对于相机感知模块，转向BEV空间可带来很大的收益，主要体现在三个方面：目前BEV感知主要出现了3类视图转换模块的方案：IPM（Inverse Perspective Mapping）、Lift-splat和Transformer。本文主要对基于Lift-splat（后文简称LS或LSS）的方案进行解析。LSS是英伟达（NVIDIA）在ECCV2020上发表的文章（Lift，Splat，Sho

2024-12-22 09:48:40 1314

redfish95的博客

原创 BEVFormer算法及代码解析

原创 GUPNet原理解析

原创 LSS原理及代码解析

原创 Python 并发编程

转载释放cuda显存及进程

转载 Docker教程及完整讲义（入门级）

转载 nvidia-smi 命令详解

原创深度学习中的随机数种子

转载 Tensorboard的使用 ---- SummaryWriter类（pytorch版）

原创 Git简易指令

原创 ubuntu22.04安装显卡驱动、CUDA及cudnn

原创目标检测评测简介

空空如也

空空如也