- 博客(147)
- 收藏
- 关注
原创 【论文阅读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion
摘要: 本文提出Sparse4D,一种基于稀疏时空融合的多视角3D目标检测方法,旨在解决传统BEV方法计算量大、高度压缩等问题。Sparse4D通过多视角图像输入,利用特征编码器提取多尺度时序特征,并通过可变形4D聚合(Deformable4D Aggregation)模块实现关键点采样与层级融合,结合深度重加权模块(Depth Reweight Module)缓解3D-2D投影歧义。实验表明,Sparse4D在nuScenes数据集上性能优越,长时序融合显著提升检测精度(10帧时效果最佳)。该方法为稀疏化
2025-08-19 20:39:14
686
原创 【论文阅读】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
DETR3D是一种基于多视角图像的端到端3D目标检测框架,通过3D到2D的查询机制实现高效检测。其核心创新在于:1)直接在3D空间进行预测,避免自下而上方法的深度预测误差;2)利用几何投影将3D查询与多视图2D特征关联;3)采用Transformer架构实现无需NMS后处理的一对一预测。该模型在nuScenes等数据集上表现优异,尤其擅长处理相机重叠区域。虽然计算开销较大,但为多传感器融合的3D检测提供了新思路,适用于自动驾驶等场景。
2025-08-19 17:35:26
479
原创 【论文阅读】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View网络模型详解
BEVDET是一种基于鸟瞰图(BEV)的3D目标检测模型,专为自动驾驶设计。该模型通过LSS模块将多视角图像特征转换到统一BEV空间,采用类似CenterPoint的检测头输出3D边界框。关键技术包括:1)解耦的图像/BEV空间数据增强策略,通过旋转、缩放保持空间一致性;2)Scale-NMS方法,根据类别调整物体尺寸以优化检测结果。实验在nuScenes数据集上达到0.397 mAP。模型支持多模态融合和时序信息处理,适用于实时感知、高精地图构建等场景。未来可优化时序建模和计算效率。
2025-08-14 15:44:15
998
原创 【第13话:泊车感知】场景检测与分割:自主泊车场景中的检测及语义分割方法
本文提出了一种自动泊车系统中的泊车库位线检测方法,通过逆透视映射(IPM)将车辆摄像头图像转换为鸟瞰视图,消除透视变形。该方法结合目标检测和语义分割模型,先定位库位线候选区域,再生成像素级精确掩码。后处理步骤将掩码转换为结构化输出,包括停车位边界多边形和可行驶区域掩码。整个流程采用深度学习模型和计算机视觉技术,可实现高精度的泊车环境感知,为自动泊车系统提供可靠支持。
2025-08-12 17:54:07
889
原创 【论文阅读】BEVFormer论文解析及Temporal Self-Attention、Spatial Cross-Attention注意力机制详解及代码示例
BEVFormer是一种基于时空变换器的多摄像头鸟瞰图生成模型,其核心创新在于时空注意力机制的设计。模型通过空间交叉注意力(Spatial Cross-Attention)将多视角2D特征映射到BEV空间,同时利用时间自注意力(Temporal Self-Attention)融合历史帧信息。这两种注意力机制的计算复杂度分别为O(N×M)和O(T²),分别负责空间特征聚合和时间运动建模。实验表明,该方法在nuScenes数据集上实现了SOTA性能,mAP达到56.9%,NDS指标达62.8%。该技术为自动驾驶
2025-08-11 16:30:30
1042
原创 【工具相关】AddressSanitizer(ASan)介绍及详细使用方法和举例说明
摘要: AddressSanitizer(ASan)是一种高效的内存错误检测工具,通过影子内存机制实时监控程序运行,可精准捕获缓冲区溢出、释放后使用(UAF)、内存泄漏等常见内存问题。使用时需在Clang/GCC编译中添加-fsanitize=address标志,运行时错误报告将包含错误类型和代码位置。典型优势包括低性能损耗(约2倍减速)和多平台支持,但存在内存开销较大的局限。示例中,ASan成功检测到数组越界访问并定位至源代码行,验证了其在开发调试中的实用性。该工具已集成至现代C/C++工具链,成为内存安
2025-08-11 10:29:35
1122
原创 【第12话:感知算法基础4】图像分割:深度学习图像分割模型介绍入门及常用模型详解
本文系统介绍了深度学习图像分割的主流模型及其技术演进。从FCN首次实现端到端像素预测,到U-Net的对称编解码结构,再到DeepLab系列的空洞卷积和ASPP多尺度特征提取,以及Mask R-CNN的实例分割方法,最后探讨了基于Transformer的前沿模型。文章通过结构图、数学公式和对比表格,详细分析了各模型的核心创新、损失函数设计及适用场景,并指出当前研究热点包括轻量化设计、3D分割和弱监督学习方向,为模型选择提供了精度、速度和硬件约束的权衡参考。
2025-08-09 11:02:14
800
原创 【第2.1话:基础知识】基于Ubuntu的ROS环境搭建与车辆可视化编程实践:初学者指南及RVIZ应用(含作业及代码)
本文提供了在Ubuntu系统上搭建ROS环境并实现车辆可视化编程的详细指南。主要内容包括:1)Ubuntu系统准备与ROS安装(推荐Noetic版本);2)使用URDF创建简单车辆模型;3)通过RVIZ工具可视化车辆模型;4)可选的运动模拟Python脚本实现。文章还包含常见问题解决方案和进阶应用建议,如集成传感器和Gazebo仿真。适用于ROS初学者,所有步骤基于官方文档验证,强调实践操作与社区资源利用。
2025-08-09 10:41:09
685
原创 【第11话:感知算法基础3】目标检测:深度学习目标检测模型介绍入门及常用模型详解
目标检测是计算机视觉的核心任务,需同时完成目标定位(输出边界框坐标)和目标分类(识别类别)。一、两阶段检测模型(精度优先)核心流程:首先生成候选区域(Region Proposals),再对候选区域分类和回归。流程(1) 使用选择性搜索生成约2000个候选框(2) 每个候选框通过CNN提取特征(3) SVM分类 + 边界框回归创新点:首次将CNN引入目标检测缺点:计算冗余(每个候选框独立计算CNN),速度慢改进整图输入CNN生成特征图。
2025-08-08 12:43:41
843
原创 【第10话:感知算法基础2】图像分类:深度学习图像分类网络模型介绍及多个常用模型详解
图像分类是计算机视觉领域的核心任务之一,其目标是将输入的图像分配到预定义的类别标签中。例如,给定一张动物图片,系统需判断其属于"猫"、"狗"或"老虎"等类别。
2025-08-08 09:17:24
709
原创 【第9话:感知算法基础1】深度学习神经网络模型基础知识概念入门简介
本文介绍了深度学习的基础概念和核心原理。深度学习是基于多层神经网络的机器学习方法,能够自动提取数据特征。文章详细讲解了神经网络的组成(输入层、隐藏层、输出层)、激活函数(Sigmoid、ReLU等)的作用、前向传播和反向传播的计算过程,以及损失函数和优化算法。此外,还介绍了CNN、RNN等常见网络类型及其应用场景。深度学习在图像识别、自然语言处理等领域有广泛应用,但需要大量数据和计算资源。建议初学者通过实践项目逐步掌握这些基础知识。
2025-08-07 15:41:47
882
原创 【第7话:相机模型3】自动驾驶IPM图像投影拼接技术详解及代码示例
IPM图像投影拼接技术通过逆透视映射将透视视图转为鸟瞰图并拼接,广泛应用于自动驾驶、监控等领域。其核心是利用单应矩阵消除透视畸变,结合特征匹配和图像融合实现无缝拼接。关键技术包括单应矩阵估计($u=H^{-1}p$)、特征点匹配和变换矩阵计算。该技术虽能提供直观的环境表达,但对相机标定精度要求高,计算开销大,且动态场景易产生伪影。OpenCV等库可简化实现流程,但需根据实际场景优化参数。
2025-08-07 11:20:55
693
原创 【第8话:车辆状态估计】IMU、轮速脉冲、GNSS、图像特征的EKF融合车辆状态估计公式推导及python代码举例
本文推导了基于扩展卡尔曼滤波(EKF)的多传感器融合定位方法,结合IMU、轮速脉冲、GNSS和图像特征数据,构建16维状态向量(位置、速度、四元数姿态及IMU偏差)。通过EKF框架实现预测(IMU运动学模型)和更新(轮速脉冲、GNSS、图像特征观测)的迭代优化,详细给出了状态转移方程、雅可比矩阵计算及观测模型公式,并讨论了各传感器的噪声处理方法,为高精度定位系统提供理论依据。
2025-08-06 14:09:24
485
原创 【第6话:相机模型2】相机标定在自动驾驶中的作用、相机标定方法详解及代码说明
摘要: 相机标定是自动驾驶系统的关键技术,通过确定相机内参(焦距、主点)和外参(位姿)实现精准环境感知。其核心作用包括:将像素坐标转换为真实世界坐标、支持多传感器融合、校正镜头畸变及辅助实时决策。标定方法采用张正友标定法,步骤包括:使用棋盘格标定板采集多角度图像、检测亚像素级角点、计算内参和畸变系数(通过最小化重投影误差)、求解外参(如PnP算法),最后验证标定精度。文中提供了基于OpenCV的Python代码示例,涵盖角点检测、参数计算和畸变校正流程,并强调实际应用中需结合实车测试与定期标定优化。该技术为
2025-08-06 14:02:19
1213
原创 【第5话:相机模型1】针孔相机、鱼眼相机模型的介绍及其在自动驾驶中的作用及使用方法
相机模型是计算机视觉的核心概念,用于描述真实世界到图像平面的投影关系。针孔相机模型基于小孔成像原理,适用于理想场景但视野有限;鱼眼相机模型则能捕捉广角视野,但需处理畸变。在自动驾驶中,相机模型通过标定、畸变校正和图像处理实现环境感知、物体检测和场景理解。多相机系统可覆盖360度视野,与激光雷达等传感器融合提升感知能力。相机模型是自动驾驶视觉感知的基础,未来将向更高效的畸变模型和深度学习融合方向发展。
2025-08-06 13:41:30
867
原创 【第2话:基础知识】 自动驾驶中的世界坐标系、车辆坐标系、相机坐标系、像素坐标系概念及相互间的转换公式推导
本文系统介绍了自动驾驶系统中常见的坐标系及其转换方法。主要内容包括:1)定义世界坐标系、车辆坐标系、传感器坐标系等关键坐标系;2)推导坐标系间的转换公式,包括世界到车辆、车辆到传感器的转换,以及相机到像素坐标系的投影变换;3)构建完整的转换链示例,展示如何将世界坐标转换为像素坐标。推导过程采用齐次坐标和矩阵变换,确保数学严谨性。文章还强调了旋转矩阵计算、误差处理等注意事项,为自动驾驶系统的定位、感知等任务提供理论基础。
2025-08-05 12:40:51
916
原创 【第4话:基础知识】从卡尔曼滤波KF到扩展卡尔曼滤波EKF公式详细推导及代码举例说明
扩展卡尔曼滤波(EKF)通过局部线性化处理非线性系统状态估计问题。本文详细推导了从卡尔曼滤波(KF)到EKF的公式转换过程:首先回顾线性KF的预测和更新步骤,然后针对非线性系统引入一阶泰勒展开近似,利用雅可比矩阵实现状态转移函数f和观测函数h的线性化。EKF核心公式包括非线性状态预测、基于雅可比矩阵的协方差传播、以及线性化观测更新。推导过程严谨,最后给出了EKF的完整算法流程和与KF的关键差异,为非线性系统状态估计提供了理论基础。
2025-08-05 12:27:53
747
原创 【第3话:基础知识】从贝叶斯滤波到卡尔曼滤波KF公式详细推导及代码举例说明
本文详细推导了从贝叶斯滤波到卡尔曼滤波的完整过程。卡尔曼滤波作为贝叶斯滤波在高斯线性系统下的特例,通过预测和更新两个步骤实现状态估计。推导从状态空间模型出发,在预测步计算先验概率分布,在更新步结合观测数据得到后验分布。最终得到卡尔曼增益的闭式解,并给出完整的迭代公式。文中还提供了Python实现示例,展示了卡尔曼滤波在实际应用中的实现方式。该推导过程严谨,既保持了理论深度,又通过代码示例增强了实用性。
2025-08-05 12:24:30
789
原创 【YOLO系列】YOLOv12详解:模型结构、损失函数、训练方法及代码实现
本文提出YOLOv12,一种以注意力为中心的实时目标检测框架,通过创新性改进解决传统YOLO模型在精度与速度上的失衡问题。核心贡献包括:1)轻量混合注意力模块(LHA)结合通道与空间注意力,在不增加计算负担下提升特征提取能力;2)区域注意机制与R-ELAN网络优化特征聚合,显著改善小目标检测(AP_S提升8.3%);3)动态多光谱数据增强策略增强模型鲁棒性。实验表明,YOLOv12在COCO等基准上实现SOTA性能,同时保持2.1 TOPS/W的高能效比,适用于边缘设备部署。该工作为实时目标检测提供了新的注
2025-08-04 17:22:31
631
原创 【第1话:基础概念及课程介绍】APA、RPA、HPA、AVP等自动泊车技术概念及相关技术栈详解
自动泊车技术从辅助到全自动化发展,主要包括APA(自动泊车辅助)、RPA(远程泊车)、HPA(家庭区域记忆泊车)和AVP(自动代客泊车)四个层级。其技术栈涵盖环境感知、多传感器数据融合、高精定位、动态建图、路径规划及车辆控制六大模块,通过激光雷达、摄像头、SLAM算法等实现厘米级精确泊车。不同级别技术适用于从日常停车到无人代客泊车等场景,推动汽车智能化发展。当前技术已具备环境建模与自主决策能力,未来将向完全无人化泊车演进。
2025-08-04 13:07:13
1333
原创 【模型细节】FPN经典网络模型 (Feature Pyramid Networks)详解及其变形优化
FPN(Feature Pyramid Network)是一种多尺度特征融合模型,广泛应用于目标检测任务中,通过构建自顶向下和横向连接的金字塔结构,有效融合不同分辨率的特征图,提升多尺度目标检测性能。其变型如PANet、NAS-FPN和BiFPN进一步优化了特征融合方式,通过双向路径、神经架构搜索或加权连接增强精度与效率。FPN及其变型在通用目标检测、实例分割等领域表现优异,兼顾计算成本与性能。
2025-08-01 16:37:18
1015
原创 【YOLO系列】YOLOv11详解:模型结构、损失函数、训练方法及代码实现
YOLOv11在目标检测领域实现重大突破,通过动态骨干网络(Dyna-Backbone)和FPN++架构,在保持高帧率(≥60FPS)的同时提升小目标检测精度(AP_S提升5.6%)。创新采用CIoU++损失函数和类别平衡Focal Loss,结合Mosaic-Plus数据增强,参数量减少18%至6.5M。实验显示,该模型在COCO数据集上实现更高mAP,特别适合移动端部署,Jetson Xavier平台能耗比优化至3.2W·ms⁻¹,支持目标检测、实例分割等多任务场景。关键创新包括动态深度调整和双向特征金
2025-08-01 15:57:00
1721
5
原创 【YOLO系列】YOLOv10详解:模型结构、损失函数、训练方法及代码实现
YOLOv10详解:高效无NMS目标检测框架 YOLOv10针对目标检测领域的关键挑战进行了创新优化:1) 提出NMS-free架构,通过双分支标签分配策略(one-to-one和one-to-many)在训练时联合监督,推理时仅用one-to-one分支实现无NMS检测;2) 采用高效模型结构设计,包括轻量化分类头、空间通道解耦下采样等;3) 改进特征金字塔网络增强多尺度特征融合能力。实验表明,YOLOv10在COCO数据集上相比前代提升3.2% mAP,推理速度提高25-40%,参数量仅3.1-98.7
2025-07-31 14:28:46
1058
原创 【模型细节】Cross-Attention:多头交叉意力机制 (Multi-head Cross-Attention) 详细解释,使用 PyTorch代码示例说明
摘要:交叉注意力机制是一种序列间动态权重计算技术,广泛应用于多模态任务和Transformer架构。其核心是通过查询序列(Q)与键值序列(K,V)的交互,计算注意力权重并加权融合信息。数学上分为相似度计算、权重归一化和加权输出三步。PyTorch提供了nn.MultiheadAttention实现,支持多头并行计算。自实现版本需完成Q/K/V投影、点积注意力、softmax归一化和加权求和四个步骤。该机制具有动态权重分配、序列长度无关、并行计算和可解释性等优势,是实现序列间信息交互的关键技术。
2025-07-30 16:21:22
919
原创 【模型细节】MHSA:多头自注意力 (Multi-head Self Attention) 详细解释,使用 PyTorch代码示例说明
MHSA多头自注意力机制解析 多头自注意力(MHSA)是Transformer的核心组件,通过并行计算实现高效序列建模。其核心流程包括:1)将输入投影为Q/K/V矩阵;2)分割为多个注意力头独立计算;3)合并多头输出。每个头计算缩放点积注意力softmax(QKᵀ/√dₖ)V,使模型能在不同子空间捕获多样特征(如语法/语义)。多头设计通过并行处理增强模型表达能力,同时保持计算效率,广泛应用于机器翻译、文本生成等任务。PyTorch实现展示了如何通过矩阵操作高效完成多头分割、注意力计算和结果融合。
2025-07-30 15:27:01
1246
原创 【YOLO系列】YOLOv9详解:模型结构、损失函数、训练方法及代码实现
信息瓶颈问题:深层网络导致浅层特征信息丢失,影响小目标检测精度实时性瓶颈:在保持高精度的同时突破推理速度极限多尺度适应性:提升模型对尺度变化的鲁棒性通过重新设计特征提取路径和优化计算范式,YOLOv9 在 MS COCO 数据集上实现了,同时保持83 FPS的实时性能。YOLOv9 通过特征路径优化和可编程梯度信息,在保持YOLO系列实时性的同时,显著提升了检测精度。轻量级自注意力增强特征表达动态Anchor分配提升定位精度知识蒸馏引导浅层特征学习。
2025-07-30 13:49:28
1082
原创 【YOLO系列】YOLOv8详解:模型结构、损失函数、训练方法及代码实现
YOLOv8是Ultralytics团队2023年推出的高效目标检测框架,在速度与精度平衡、多任务支持和易用性方面实现突破。模型采用改进的CSPDarknet主干网络、C2f模块和SPPF加速结构,结合PAN-FPN特征融合和解耦检测头设计,支持目标检测、实例分割和关键点检测任务。创新性地使用CIoU定位损失、Focal Loss置信度损失和动态样本分配策略,显著提升检测性能。实验表明,YOLOv8较前代模型mAP提升5-10%,在TensorRT加速下可达1000FPS,提供5种尺寸灵活选择,成为实时目标
2025-07-29 15:46:49
1135
原创 【可视化】 matplotlib(plt)绘制四边形详解及代码实现
摘要:本文介绍了使用matplotlib绘制四边形的四种方法。1)plt.Rectangle适合轴对齐矩形,需指定左下角坐标和宽高;2)plt.Polygon可绘制任意四边形,通过定义顶点实现;3)plot函数连接顶点绘制边框;4)fill函数填充四边形区域。还提供了旋转矩形的实现方法,通过旋转顶点坐标完成。这些方法覆盖了从简单矩形到复杂四边形的绘制需求,可根据实际场景选择合适方式。代码示例完整,包含关键参数说明。
2025-07-29 10:46:41
147
原创 【YOLO系列】YOLOv7详解:模型结构、损失函数、训练方法及代码实现
YOLOv7是一种高效的目标检测模型,通过改进模型结构和训练策略,在精度和速度上实现突破。其核心创新包括ELAN模块、优化的多尺度特征融合和动态标签分配。模型采用多阶段数据增强和CIoU损失函数,结合两阶段训练和余弦退火学习率调度。实验表明,YOLOv7在COCO数据集上相比前代模型提升显著(AP@0.5最高60.2%),同时保持高速推理(最高161 FPS)。该模型通过模块化设计和高效特征处理机制,为工业部署提供了优秀的精度-速度平衡。
2025-07-28 14:07:02
1262
原创 【图像处理】霍夫变换:霍夫变换原理、霍夫空间、霍夫直线、霍夫圆详解与代码示例
霍夫变换是一种利用参数空间映射检测图像中几何形状的特征提取技术。它通过将图像空间的点转换为参数空间的曲线(如直线转换为极坐标方程ρ=xcosθ+ysinθ),采用累积投票机制识别几何特征。该方法对噪声和部分遮挡具有鲁棒性,但计算复杂度随参数维度增加。文章详细推导了霍夫变换原理,阐述了直线和圆的检测方法,并提供了基于OpenCV的Python实现代码示例,包括Canny边缘检测预处理、霍夫空间离散化和参数优化技巧。霍夫变换广泛应用于计算机视觉领域,如车道检测和工业质检,通过调整阈值参数可平衡检测精度与效率。
2025-07-28 13:53:33
935
原创 【YOLO系列】YOLOv1详解:模型结构、损失函数、训练方法及代码实现
YOLOv1:单阶段目标检测的开创性模型 YOLOv1是2016年提出的革命性目标检测模型,首次实现端到端单阶段检测,将检测速度提升至45 FPS。该模型采用7×7网格划分输入图像,每个网格预测2个边界框和20类概率。核心创新包括: 将检测任务转化为回归问题,直接预测边界框坐标和类别概率 设计多任务损失函数,平衡位置误差、置信度误差和分类误差 采用轻量级网络结构(24个卷积层+2个全连接层)实现实时推理 虽然对小目标检测效果有限,但YOLOv1为后续单阶段检测器奠定了基础,在速度和精度间取得了突破性平衡。
2025-07-27 15:12:55
1234
原创 【YOLO系列】YOLOv2详解:模型结构、损失函数、训练方法及代码实现
YOLOv2目标检测算法通过多尺度训练、先验框优化和Darknet-19网络结构等创新,显著提升了检测精度和速度。该算法将骨干网络改为纯卷积结构,引入Batch Normalization,并采用特征融合增强小目标检测。通过联合训练机制,YOLOv2支持9000类物体检测,解决了传统方法类别扩展难题。实验显示,相比YOLOv1,其mAP提升15.2%,FPS提高48%,小目标召回率增加22%。YOLOv2为后续单阶段检测器发展奠定了基础,但其在密集小目标场景和边界框精度方面仍有改进空间。
2025-07-27 14:49:52
1009
原创 【YOLO系列】YOLOv3详解:模型结构、损失函数、训练方法及代码实现
YOLOv3详解:单阶段目标检测的里程碑模型 摘要:YOLOv3作为YOLO系列的重要升级,通过三大创新显著提升了检测性能:(1)采用Darknet-53骨干网络增强特征提取能力;(2)引入多尺度预测机制,通过特征金字塔结构实现13×13、26×26、52×52三种尺度的检测;(3)改进损失函数设计,包含坐标损失、置信度损失和分类损失三部分。模型在COCO数据集上达到mAP 33.0%的同时保持51ms的实时处理速度。关键技术包括K-means生成的9个先验框、二元交叉熵分类损失以及"宽高平方根&
2025-07-27 14:22:50
660
原创 【YOLO系列】YOLOv6详解:模型结构、损失函数、训练方法及代码实现
YOLOv6 代码开源在 GitHub(仓库:meituan/YOLOv6),基于 PyTorch 实现。以下是一个简洁的推理代码示例,展示如何加载模型并进行预测。代码包括模型加载、预处理和后处理步骤。# 加载预训练模型(以 YOLOv6-S 为例)model = Model('yolov6s.yaml').cuda() # 加载配置文件model.load_state_dict(torch.load('yolov6s.pt')['model']) # 加载权重。
2025-07-25 09:54:28
955
原创 【YOLO系列】YOLOv4详解:模型结构、损失函数、训练方法及代码实现
摘要:YOLOv4在目标检测领域实现了精度与速度的平衡,通过CSPDarknet53骨干网络、SPP+PANet特征融合及CIoU损失函数等创新,在MS COCO数据集达到65.7% AP50,V100显卡实现62FPS实时检测。核心优化包括Mosaic数据增强、自对抗训练和解耦头结构,显著提升小目标检测和遮挡场景鲁棒性。代码实现采用CSP模块和SPP多尺度池化,兼顾计算效率与检测性能,为工业落地提供高效解决方案。(149字)
2025-07-24 09:49:07
1120
原创 【YOLO系列】YOLOv5详解:模型结构、损失函数、训练方法及代码实现
YOLOv5代码库开源在GitHub,使用PyTorch实现。YOLOv5以其简洁的架构、高效的损失函数和灵活的训练方法,成为工业级目标检测的热门选择。通过本文的解析和代码示例,你可以快速部署自定义检测任务。建议访问Ultralytics官方GitHub仓库获取最新代码和预训练模型。
2025-07-23 16:07:30
871
原创 【论文阅读】Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline
作者:Yangguang Li, Bin Huang, Zeren Chen, Yufeng Cui, Feng Liang, Mingzhu Shen,Fenggang Liu, Enze Xie, Lu ShengB, Wanli Ouyang, Jing Shao。bev模式的检测逐渐成为主流,但是当前的算法资源消耗大或者效果不佳,作者提出又快又好的方法:FASTBEV.重新思考2D-3D映射思路。
2025-07-22 19:15:44
355
原创 【论文阅读】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation
BEVFusion提出了一种统一鸟瞰图(BEV)表示的多传感器融合框架,有效保留图像和点云的稠密语义特征。通过改进LSS方法(预计算和GPU并行化加速)实现高效的2D到3D转换,结合全卷积融合与深度监督提升性能。实验表明,该方法在检测和分割任务上表现优异,尤其LSS加速设计对自动驾驶方案具有重要参考价值。
2025-07-18 13:47:27
154
原创 【论文阅读】BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework
作者觉得当前使用点云特征去查询图像特征的模式会在点云失效的情况下整体失败,导致错误发生。于是作者在想把点云特征和图像特征单独处理,行成了BEVFusion,并建立了这种融合模式的检测架构。作者对比了3种HEAD: anchor-based, anchor-free-based, and transform-based。就是常规的图像特征提取->2D to 3D->编码;这里重点在于2D to 3D,作者采用的是LSS的方法。厉害吧,我们的自驾是用的改进版本的。融合就很简单了,如下图所示。
2025-07-18 12:49:06
270
rknn-toolkit-lite2-1.6.0-cp38-cp38-linux-aarch64.whl
2025-08-11
【计算机视觉】基于Bisenet的地下泊车场景仿真数据集训练与推理:环境配置、常见问题及关键参数解析
2025-08-09
【计算机视觉】 基于IPM的全景相机图像拼接算法实现:自动化停车系统中的关键投影技术开发与应用
2025-08-09
自动驾驶基于扩展卡尔曼滤波的车辆状态估计实现:预测与更新模型及ROS环境下的轨迹可视化系统设计
2025-08-09
【自动驾驶领域】自主代客泊车(AVP)理论与实践课程大纲:涵盖定位、感知、规划与控制技术
2025-08-09
【自动驾驶泊车域专题课程-作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践:初学者指南及RVIZ应用
2025-08-09
【自动驾驶泊车域专题课程-作业一】基于Ubuntu的ROS环境搭建与车辆可视化编程实践:初学者指南及RVIZ应用
2025-08-09
Music-Downloader-master.zip
2025-07-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人