一碗白开水一-优快云博客

原创【论文阅读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

摘要：本文提出Sparse4D，一种基于稀疏时空融合的多视角3D目标检测方法，旨在解决传统BEV方法计算量大、高度压缩等问题。Sparse4D通过多视角图像输入，利用特征编码器提取多尺度时序特征，并通过可变形4D聚合（Deformable4D Aggregation）模块实现关键点采样与层级融合，结合深度重加权模块（Depth Reweight Module）缓解3D-2D投影歧义。实验表明，Sparse4D在nuScenes数据集上性能优越，长时序融合显著提升检测精度（10帧时效果最佳）。该方法为稀疏化

2025-08-19 20:39:14 686

原创【论文阅读】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

DETR3D是一种基于多视角图像的端到端3D目标检测框架，通过3D到2D的查询机制实现高效检测。其核心创新在于：1）直接在3D空间进行预测，避免自下而上方法的深度预测误差；2）利用几何投影将3D查询与多视图2D特征关联；3）采用Transformer架构实现无需NMS后处理的一对一预测。该模型在nuScenes等数据集上表现优异，尤其擅长处理相机重叠区域。虽然计算开销较大，但为多传感器融合的3D检测提供了新思路，适用于自动驾驶等场景。

2025-08-19 17:35:26 479

原创【论文阅读】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View网络模型详解

BEVDET是一种基于鸟瞰图（BEV）的3D目标检测模型，专为自动驾驶设计。该模型通过LSS模块将多视角图像特征转换到统一BEV空间，采用类似CenterPoint的检测头输出3D边界框。关键技术包括：1）解耦的图像/BEV空间数据增强策略，通过旋转、缩放保持空间一致性；2）Scale-NMS方法，根据类别调整物体尺寸以优化检测结果。实验在nuScenes数据集上达到0.397 mAP。模型支持多模态融合和时序信息处理，适用于实时感知、高精地图构建等场景。未来可优化时序建模和计算效率。

2025-08-14 15:44:15 998

原创【第13话：泊车感知】场景检测与分割：自主泊车场景中的检测及语义分割方法

本文提出了一种自动泊车系统中的泊车库位线检测方法，通过逆透视映射（IPM）将车辆摄像头图像转换为鸟瞰视图，消除透视变形。该方法结合目标检测和语义分割模型，先定位库位线候选区域，再生成像素级精确掩码。后处理步骤将掩码转换为结构化输出，包括停车位边界多边形和可行驶区域掩码。整个流程采用深度学习模型和计算机视觉技术，可实现高精度的泊车环境感知，为自动泊车系统提供可靠支持。

2025-08-12 17:54:07 889

原创【论文阅读】BEVFormer论文解析及Temporal Self-Attention、Spatial Cross-Attention注意力机制详解及代码示例

BEVFormer是一种基于时空变换器的多摄像头鸟瞰图生成模型，其核心创新在于时空注意力机制的设计。模型通过空间交叉注意力（Spatial Cross-Attention）将多视角2D特征映射到BEV空间，同时利用时间自注意力（Temporal Self-Attention）融合历史帧信息。这两种注意力机制的计算复杂度分别为O(N×M)和O(T²)，分别负责空间特征聚合和时间运动建模。实验表明，该方法在nuScenes数据集上实现了SOTA性能，mAP达到56.9%，NDS指标达62.8%。该技术为自动驾驶

2025-08-11 16:30:30 1042

原创【工具相关】AddressSanitizer（ASan）介绍及详细使用方法和举例说明

摘要： AddressSanitizer（ASan）是一种高效的内存错误检测工具，通过影子内存机制实时监控程序运行，可精准捕获缓冲区溢出、释放后使用（UAF）、内存泄漏等常见内存问题。使用时需在Clang/GCC编译中添加-fsanitize=address标志，运行时错误报告将包含错误类型和代码位置。典型优势包括低性能损耗（约2倍减速）和多平台支持，但存在内存开销较大的局限。示例中，ASan成功检测到数组越界访问并定位至源代码行，验证了其在开发调试中的实用性。该工具已集成至现代C/C++工具链，成为内存安

2025-08-11 10:29:35 1122

原创【第12话：感知算法基础4】图像分割：深度学习图像分割模型介绍入门及常用模型详解

本文系统介绍了深度学习图像分割的主流模型及其技术演进。从FCN首次实现端到端像素预测，到U-Net的对称编解码结构，再到DeepLab系列的空洞卷积和ASPP多尺度特征提取，以及Mask R-CNN的实例分割方法，最后探讨了基于Transformer的前沿模型。文章通过结构图、数学公式和对比表格，详细分析了各模型的核心创新、损失函数设计及适用场景，并指出当前研究热点包括轻量化设计、3D分割和弱监督学习方向，为模型选择提供了精度、速度和硬件约束的权衡参考。

2025-08-09 11:02:14 800

原创【第2.1话：基础知识】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用（含作业及代码）

本文提供了在Ubuntu系统上搭建ROS环境并实现车辆可视化编程的详细指南。主要内容包括：1）Ubuntu系统准备与ROS安装（推荐Noetic版本）；2）使用URDF创建简单车辆模型；3）通过RVIZ工具可视化车辆模型；4）可选的运动模拟Python脚本实现。文章还包含常见问题解决方案和进阶应用建议，如集成传感器和Gazebo仿真。适用于ROS初学者，所有步骤基于官方文档验证，强调实践操作与社区资源利用。

2025-08-09 10:41:09 685

原创【第11话：感知算法基础3】目标检测：深度学习目标检测模型介绍入门及常用模型详解

目标检测是计算机视觉的核心任务，需同时完成目标定位（输出边界框坐标）和目标分类（识别类别）。一、两阶段检测模型（精度优先）核心流程：首先生成候选区域（Region Proposals），再对候选区域分类和回归。流程(1) 使用选择性搜索生成约2000个候选框(2) 每个候选框通过CNN提取特征(3) SVM分类 + 边界框回归创新点：首次将CNN引入目标检测缺点：计算冗余（每个候选框独立计算CNN），速度慢改进整图输入CNN生成特征图。

2025-08-08 12:43:41 843

原创【第10话：感知算法基础2】图像分类：深度学习图像分类网络模型介绍及多个常用模型详解

图像分类是计算机视觉领域的核心任务之一，其目标是将输入的图像分配到预定义的类别标签中。例如，给定一张动物图片，系统需判断其属于"猫"、"狗"或"老虎"等类别。

2025-08-08 09:17:24 709

原创【第9话：感知算法基础1】深度学习神经网络模型基础知识概念入门简介

本文介绍了深度学习的基础概念和核心原理。深度学习是基于多层神经网络的机器学习方法，能够自动提取数据特征。文章详细讲解了神经网络的组成（输入层、隐藏层、输出层）、激活函数（Sigmoid、ReLU等）的作用、前向传播和反向传播的计算过程，以及损失函数和优化算法。此外，还介绍了CNN、RNN等常见网络类型及其应用场景。深度学习在图像识别、自然语言处理等领域有广泛应用，但需要大量数据和计算资源。建议初学者通过实践项目逐步掌握这些基础知识。

2025-08-07 15:41:47 882

原创【第7话：相机模型3】自动驾驶IPM图像投影拼接技术详解及代码示例

IPM图像投影拼接技术通过逆透视映射将透视视图转为鸟瞰图并拼接，广泛应用于自动驾驶、监控等领域。其核心是利用单应矩阵消除透视畸变，结合特征匹配和图像融合实现无缝拼接。关键技术包括单应矩阵估计（$u=H^{-1}p$）、特征点匹配和变换矩阵计算。该技术虽能提供直观的环境表达，但对相机标定精度要求高，计算开销大，且动态场景易产生伪影。OpenCV等库可简化实现流程，但需根据实际场景优化参数。

2025-08-07 11:20:55 693

原创【第8话：车辆状态估计】IMU、轮速脉冲、GNSS、图像特征的EKF融合车辆状态估计公式推导及python代码举例

本文推导了基于扩展卡尔曼滤波（EKF）的多传感器融合定位方法，结合IMU、轮速脉冲、GNSS和图像特征数据，构建16维状态向量（位置、速度、四元数姿态及IMU偏差）。通过EKF框架实现预测（IMU运动学模型）和更新（轮速脉冲、GNSS、图像特征观测）的迭代优化，详细给出了状态转移方程、雅可比矩阵计算及观测模型公式，并讨论了各传感器的噪声处理方法，为高精度定位系统提供理论依据。

2025-08-06 14:09:24 485

原创【第6话：相机模型2】相机标定在自动驾驶中的作用、相机标定方法详解及代码说明

摘要：相机标定是自动驾驶系统的关键技术，通过确定相机内参（焦距、主点）和外参（位姿）实现精准环境感知。其核心作用包括：将像素坐标转换为真实世界坐标、支持多传感器融合、校正镜头畸变及辅助实时决策。标定方法采用张正友标定法，步骤包括：使用棋盘格标定板采集多角度图像、检测亚像素级角点、计算内参和畸变系数（通过最小化重投影误差）、求解外参（如PnP算法），最后验证标定精度。文中提供了基于OpenCV的Python代码示例，涵盖角点检测、参数计算和畸变校正流程，并强调实际应用中需结合实车测试与定期标定优化。该技术为

2025-08-06 14:02:19 1213

原创【第5话：相机模型1】针孔相机、鱼眼相机模型的介绍及其在自动驾驶中的作用及使用方法

相机模型是计算机视觉的核心概念，用于描述真实世界到图像平面的投影关系。针孔相机模型基于小孔成像原理，适用于理想场景但视野有限；鱼眼相机模型则能捕捉广角视野，但需处理畸变。在自动驾驶中，相机模型通过标定、畸变校正和图像处理实现环境感知、物体检测和场景理解。多相机系统可覆盖360度视野，与激光雷达等传感器融合提升感知能力。相机模型是自动驾驶视觉感知的基础，未来将向更高效的畸变模型和深度学习融合方向发展。

2025-08-06 13:41:30 867

原创【第2话：基础知识】自动驾驶中的世界坐标系、车辆坐标系、相机坐标系、像素坐标系概念及相互间的转换公式推导

本文系统介绍了自动驾驶系统中常见的坐标系及其转换方法。主要内容包括：1）定义世界坐标系、车辆坐标系、传感器坐标系等关键坐标系；2）推导坐标系间的转换公式，包括世界到车辆、车辆到传感器的转换，以及相机到像素坐标系的投影变换；3）构建完整的转换链示例，展示如何将世界坐标转换为像素坐标。推导过程采用齐次坐标和矩阵变换，确保数学严谨性。文章还强调了旋转矩阵计算、误差处理等注意事项，为自动驾驶系统的定位、感知等任务提供理论基础。

2025-08-05 12:40:51 916

原创【第4话：基础知识】从卡尔曼滤波KF到扩展卡尔曼滤波EKF公式详细推导及代码举例说明

扩展卡尔曼滤波（EKF）通过局部线性化处理非线性系统状态估计问题。本文详细推导了从卡尔曼滤波（KF）到EKF的公式转换过程：首先回顾线性KF的预测和更新步骤，然后针对非线性系统引入一阶泰勒展开近似，利用雅可比矩阵实现状态转移函数f和观测函数h的线性化。EKF核心公式包括非线性状态预测、基于雅可比矩阵的协方差传播、以及线性化观测更新。推导过程严谨，最后给出了EKF的完整算法流程和与KF的关键差异，为非线性系统状态估计提供了理论基础。

2025-08-05 12:27:53 747

原创【第3话：基础知识】从贝叶斯滤波到卡尔曼滤波KF公式详细推导及代码举例说明

本文详细推导了从贝叶斯滤波到卡尔曼滤波的完整过程。卡尔曼滤波作为贝叶斯滤波在高斯线性系统下的特例，通过预测和更新两个步骤实现状态估计。推导从状态空间模型出发，在预测步计算先验概率分布，在更新步结合观测数据得到后验分布。最终得到卡尔曼增益的闭式解，并给出完整的迭代公式。文中还提供了Python实现示例，展示了卡尔曼滤波在实际应用中的实现方式。该推导过程严谨，既保持了理论深度，又通过代码示例增强了实用性。

2025-08-05 12:24:30 789

原创【YOLO系列】YOLOv12详解：模型结构、损失函数、训练方法及代码实现

本文提出YOLOv12，一种以注意力为中心的实时目标检测框架，通过创新性改进解决传统YOLO模型在精度与速度上的失衡问题。核心贡献包括：1）轻量混合注意力模块（LHA）结合通道与空间注意力，在不增加计算负担下提升特征提取能力；2）区域注意机制与R-ELAN网络优化特征聚合，显著改善小目标检测（AP_S提升8.3%）；3）动态多光谱数据增强策略增强模型鲁棒性。实验表明，YOLOv12在COCO等基准上实现SOTA性能，同时保持2.1 TOPS/W的高能效比，适用于边缘设备部署。该工作为实时目标检测提供了新的注

2025-08-04 17:22:31 631

原创【第1话：基础概念及课程介绍】APA、RPA、HPA、AVP等自动泊车技术概念及相关技术栈详解

自动泊车技术从辅助到全自动化发展，主要包括APA（自动泊车辅助）、RPA（远程泊车）、HPA（家庭区域记忆泊车）和AVP（自动代客泊车）四个层级。其技术栈涵盖环境感知、多传感器数据融合、高精定位、动态建图、路径规划及车辆控制六大模块，通过激光雷达、摄像头、SLAM算法等实现厘米级精确泊车。不同级别技术适用于从日常停车到无人代客泊车等场景，推动汽车智能化发展。当前技术已具备环境建模与自主决策能力，未来将向完全无人化泊车演进。

2025-08-04 13:07:13 1333

原创【模型细节】FPN经典网络模型 (Feature Pyramid Networks)详解及其变形优化

FPN（Feature Pyramid Network）是一种多尺度特征融合模型，广泛应用于目标检测任务中，通过构建自顶向下和横向连接的金字塔结构，有效融合不同分辨率的特征图，提升多尺度目标检测性能。其变型如PANet、NAS-FPN和BiFPN进一步优化了特征融合方式，通过双向路径、神经架构搜索或加权连接增强精度与效率。FPN及其变型在通用目标检测、实例分割等领域表现优异，兼顾计算成本与性能。

2025-08-01 16:37:18 1015

原创【YOLO系列】YOLOv11详解：模型结构、损失函数、训练方法及代码实现

YOLOv11在目标检测领域实现重大突破，通过动态骨干网络(Dyna-Backbone)和FPN++架构，在保持高帧率(≥60FPS)的同时提升小目标检测精度(AP_S提升5.6%)。创新采用CIoU++损失函数和类别平衡Focal Loss，结合Mosaic-Plus数据增强，参数量减少18%至6.5M。实验显示，该模型在COCO数据集上实现更高mAP，特别适合移动端部署，Jetson Xavier平台能耗比优化至3.2W·ms⁻¹，支持目标检测、实例分割等多任务场景。关键创新包括动态深度调整和双向特征金

2025-08-01 15:57:00 1721 5

原创【损失函数】L1 Loss 和 Smooth L1 Loss 的推导、区别及代码解析

对于预测值。

2025-07-31 14:49:06 752

原创【YOLO系列】YOLOv10详解：模型结构、损失函数、训练方法及代码实现

YOLOv10详解：高效无NMS目标检测框架 YOLOv10针对目标检测领域的关键挑战进行了创新优化：1) 提出NMS-free架构，通过双分支标签分配策略（one-to-one和one-to-many）在训练时联合监督，推理时仅用one-to-one分支实现无NMS检测；2) 采用高效模型结构设计，包括轻量化分类头、空间通道解耦下采样等；3) 改进特征金字塔网络增强多尺度特征融合能力。实验表明，YOLOv10在COCO数据集上相比前代提升3.2% mAP，推理速度提高25-40%，参数量仅3.1-98.7

2025-07-31 14:28:46 1058

原创【模型细节】Cross-Attention:多头交叉意力机制 (Multi-head Cross-Attention) 详细解释，使用 PyTorch代码示例说明

摘要：交叉注意力机制是一种序列间动态权重计算技术，广泛应用于多模态任务和Transformer架构。其核心是通过查询序列(Q)与键值序列(K,V)的交互，计算注意力权重并加权融合信息。数学上分为相似度计算、权重归一化和加权输出三步。PyTorch提供了nn.MultiheadAttention实现，支持多头并行计算。自实现版本需完成Q/K/V投影、点积注意力、softmax归一化和加权求和四个步骤。该机制具有动态权重分配、序列长度无关、并行计算和可解释性等优势，是实现序列间信息交互的关键技术。

2025-07-30 16:21:22 919

原创【模型细节】MHSA:多头自注意力 (Multi-head Self Attention) 详细解释，使用 PyTorch代码示例说明

MHSA多头自注意力机制解析多头自注意力(MHSA)是Transformer的核心组件，通过并行计算实现高效序列建模。其核心流程包括：1）将输入投影为Q/K/V矩阵；2）分割为多个注意力头独立计算；3）合并多头输出。每个头计算缩放点积注意力softmax(QKᵀ/√dₖ)V，使模型能在不同子空间捕获多样特征（如语法/语义）。多头设计通过并行处理增强模型表达能力，同时保持计算效率，广泛应用于机器翻译、文本生成等任务。PyTorch实现展示了如何通过矩阵操作高效完成多头分割、注意力计算和结果融合。

2025-07-30 15:27:01 1246

原创【YOLO系列】YOLOv9详解：模型结构、损失函数、训练方法及代码实现

信息瓶颈问题：深层网络导致浅层特征信息丢失，影响小目标检测精度实时性瓶颈：在保持高精度的同时突破推理速度极限多尺度适应性：提升模型对尺度变化的鲁棒性通过重新设计特征提取路径和优化计算范式，YOLOv9 在 MS COCO 数据集上实现了，同时保持83 FPS的实时性能。YOLOv9 通过特征路径优化和可编程梯度信息，在保持YOLO系列实时性的同时，显著提升了检测精度。轻量级自注意力增强特征表达动态Anchor分配提升定位精度知识蒸馏引导浅层特征学习。

2025-07-30 13:49:28 1082

原创【YOLO系列】YOLOv8详解：模型结构、损失函数、训练方法及代码实现

YOLOv8是Ultralytics团队2023年推出的高效目标检测框架，在速度与精度平衡、多任务支持和易用性方面实现突破。模型采用改进的CSPDarknet主干网络、C2f模块和SPPF加速结构，结合PAN-FPN特征融合和解耦检测头设计，支持目标检测、实例分割和关键点检测任务。创新性地使用CIoU定位损失、Focal Loss置信度损失和动态样本分配策略，显著提升检测性能。实验表明，YOLOv8较前代模型mAP提升5-10%，在TensorRT加速下可达1000FPS，提供5种尺寸灵活选择，成为实时目标

2025-07-29 15:46:49 1135

原创【可视化】 matplotlib（plt）绘制四边形详解及代码实现

摘要：本文介绍了使用matplotlib绘制四边形的四种方法。1）plt.Rectangle适合轴对齐矩形，需指定左下角坐标和宽高；2）plt.Polygon可绘制任意四边形，通过定义顶点实现；3）plot函数连接顶点绘制边框；4）fill函数填充四边形区域。还提供了旋转矩形的实现方法，通过旋转顶点坐标完成。这些方法覆盖了从简单矩形到复杂四边形的绘制需求，可根据实际场景选择合适方式。代码示例完整，包含关键参数说明。

2025-07-29 10:46:41 147

原创【YOLO系列】YOLOv7详解：模型结构、损失函数、训练方法及代码实现

YOLOv7是一种高效的目标检测模型，通过改进模型结构和训练策略，在精度和速度上实现突破。其核心创新包括ELAN模块、优化的多尺度特征融合和动态标签分配。模型采用多阶段数据增强和CIoU损失函数，结合两阶段训练和余弦退火学习率调度。实验表明，YOLOv7在COCO数据集上相比前代模型提升显著（AP@0.5最高60.2%），同时保持高速推理（最高161 FPS）。该模型通过模块化设计和高效特征处理机制，为工业部署提供了优秀的精度-速度平衡。

2025-07-28 14:07:02 1262

原创【图像处理】霍夫变换:霍夫变换原理、霍夫空间、霍夫直线、霍夫圆详解与代码示例

霍夫变换是一种利用参数空间映射检测图像中几何形状的特征提取技术。它通过将图像空间的点转换为参数空间的曲线（如直线转换为极坐标方程ρ=xcosθ+ysinθ），采用累积投票机制识别几何特征。该方法对噪声和部分遮挡具有鲁棒性，但计算复杂度随参数维度增加。文章详细推导了霍夫变换原理，阐述了直线和圆的检测方法，并提供了基于OpenCV的Python实现代码示例，包括Canny边缘检测预处理、霍夫空间离散化和参数优化技巧。霍夫变换广泛应用于计算机视觉领域，如车道检测和工业质检，通过调整阈值参数可平衡检测精度与效率。

2025-07-28 13:53:33 935

原创【YOLO系列】YOLOv1详解：模型结构、损失函数、训练方法及代码实现

YOLOv1：单阶段目标检测的开创性模型 YOLOv1是2016年提出的革命性目标检测模型，首次实现端到端单阶段检测，将检测速度提升至45 FPS。该模型采用7×7网格划分输入图像，每个网格预测2个边界框和20类概率。核心创新包括：将检测任务转化为回归问题，直接预测边界框坐标和类别概率设计多任务损失函数，平衡位置误差、置信度误差和分类误差采用轻量级网络结构（24个卷积层+2个全连接层）实现实时推理虽然对小目标检测效果有限，但YOLOv1为后续单阶段检测器奠定了基础，在速度和精度间取得了突破性平衡。

2025-07-27 15:12:55 1234

原创【YOLO系列】YOLOv2详解：模型结构、损失函数、训练方法及代码实现

YOLOv2目标检测算法通过多尺度训练、先验框优化和Darknet-19网络结构等创新，显著提升了检测精度和速度。该算法将骨干网络改为纯卷积结构，引入Batch Normalization，并采用特征融合增强小目标检测。通过联合训练机制，YOLOv2支持9000类物体检测，解决了传统方法类别扩展难题。实验显示，相比YOLOv1，其mAP提升15.2%，FPS提高48%，小目标召回率增加22%。YOLOv2为后续单阶段检测器发展奠定了基础，但其在密集小目标场景和边界框精度方面仍有改进空间。

2025-07-27 14:49:52 1009

原创【YOLO系列】YOLOv3详解：模型结构、损失函数、训练方法及代码实现

YOLOv3详解：单阶段目标检测的里程碑模型摘要：YOLOv3作为YOLO系列的重要升级，通过三大创新显著提升了检测性能：(1)采用Darknet-53骨干网络增强特征提取能力；(2)引入多尺度预测机制，通过特征金字塔结构实现13×13、26×26、52×52三种尺度的检测；(3)改进损失函数设计，包含坐标损失、置信度损失和分类损失三部分。模型在COCO数据集上达到mAP 33.0%的同时保持51ms的实时处理速度。关键技术包括K-means生成的9个先验框、二元交叉熵分类损失以及"宽高平方根&

2025-07-27 14:22:50 660

原创【YOLO系列】YOLOv6详解：模型结构、损失函数、训练方法及代码实现

YOLOv6 代码开源在 GitHub（仓库：meituan/YOLOv6），基于 PyTorch 实现。以下是一个简洁的推理代码示例，展示如何加载模型并进行预测。代码包括模型加载、预处理和后处理步骤。# 加载预训练模型（以 YOLOv6-S 为例）model = Model('yolov6s.yaml').cuda() # 加载配置文件model.load_state_dict(torch.load('yolov6s.pt')['model']) # 加载权重。

2025-07-25 09:54:28 955

原创【YOLO系列】YOLOv4详解：模型结构、损失函数、训练方法及代码实现

摘要：YOLOv4在目标检测领域实现了精度与速度的平衡，通过CSPDarknet53骨干网络、SPP+PANet特征融合及CIoU损失函数等创新，在MS COCO数据集达到65.7% AP50，V100显卡实现62FPS实时检测。核心优化包括Mosaic数据增强、自对抗训练和解耦头结构，显著提升小目标检测和遮挡场景鲁棒性。代码实现采用CSP模块和SPP多尺度池化，兼顾计算效率与检测性能，为工业落地提供高效解决方案。（149字）

2025-07-24 09:49:07 1120

原创【YOLO系列】YOLOv5详解：模型结构、损失函数、训练方法及代码实现

YOLOv5代码库开源在GitHub，使用PyTorch实现。YOLOv5以其简洁的架构、高效的损失函数和灵活的训练方法，成为工业级目标检测的热门选择。通过本文的解析和代码示例，你可以快速部署自定义检测任务。建议访问Ultralytics官方GitHub仓库获取最新代码和预训练模型。

2025-07-23 16:07:30 871

原创【论文阅读】Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline

作者：Yangguang Li, Bin Huang, Zeren Chen, Yufeng Cui, Feng Liang, Mingzhu Shen,Fenggang Liu, Enze Xie, Lu ShengB, Wanli Ouyang, Jing Shao。bev模式的检测逐渐成为主流，但是当前的算法资源消耗大或者效果不佳，作者提出又快又好的方法：FASTBEV.重新思考2D-3D映射思路。

2025-07-22 19:15:44 355

原创【论文阅读】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation

BEVFusion提出了一种统一鸟瞰图（BEV）表示的多传感器融合框架，有效保留图像和点云的稠密语义特征。通过改进LSS方法（预计算和GPU并行化加速）实现高效的2D到3D转换，结合全卷积融合与深度监督提升性能。实验表明，该方法在检测和分割任务上表现优异，尤其LSS加速设计对自动驾驶方案具有重要参考价值。

2025-07-18 13:47:27 154

原创【论文阅读】BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

作者觉得当前使用点云特征去查询图像特征的模式会在点云失效的情况下整体失败，导致错误发生。于是作者在想把点云特征和图像特征单独处理，行成了BEVFusion，并建立了这种融合模式的检测架构。作者对比了3种HEAD: anchor-based, anchor-free-based, and transform-based。就是常规的图像特征提取->2D to 3D->编码；这里重点在于2D to 3D，作者采用的是LSS的方法。厉害吧，我们的自驾是用的改进版本的。融合就很简单了，如下图所示。

2025-07-18 12:49:06 270

yolov10s.onnx

yolov10s的onnx模型原版可转tensorrt rknn等模型

2025-08-11

rknn-toolkit-lite2-1.6.0-cp38-cp38-linux-aarch64.whl

rknn_toolkit_lite2-1.6.0-cp38-cp38-linux_aarch64.whl rk3566模型部署板端python38 的whl

2025-08-11

【计算机视觉】基于Bisenet的地下泊车场景仿真数据集训练与推理：环境配置、常见问题及关键参数解析

内容概要：本文档详细介绍了地下泊车场景仿真数据集SUPS的获取方式及其在Bisenet模型训练与推理中的应用。首先阐述了数据集的来源与下载途径，包括百度网盘和飞书两种渠道，并指出数据集规模较大（约6.39G）。接着描述了环境配置方法，建议使用Anaconda创建虚拟环境来简化安装过程，同时提供本地GPU训练和云平台AutoDL两种选择。对于Bisenet训练部分，文档指出了具体的文件处理步骤，如删除CSV文件首行、修改配置文件中的分类数量及路径设置等，以及训练和推理的具体命令行操作。最后列举了一些常见错误及其解决办法，例如torchrun命令找不到、cuDNN错误等问题，还列出了几个重要的训练参数，如迭代次数、学习率、批次大小等。; 适合人群：有一定深度学习基础，对计算机视觉领域感兴趣，特别是希望利用Bisenet进行图像分割任务的研究人员或工程师。; 使用场景及目标：①掌握地下泊车场景仿真数据集SUPS的获取方法；②熟悉基于Bisenet模型的训练和推理流程；③解决训练过程中可能出现的技术难题；④调整关键参数以优化模型性能。; 阅读建议：读者应按照文档提供的步骤逐步操作，确保每个环节都能正确执行。遇到问题时可以参考文档中提到的解决方案，同时注意检查所用软件版本是否符合要求。此外，建议读者根据自身硬件条件适当调整训练参数，以获得最佳效果。

2025-08-09

【计算机视觉】基于IPM的全景相机图像拼接算法实现：自动化停车系统中的关键投影技术开发与应用

内容概要：本文档是关于逆向透视映射（IPM）图像拼接的作业说明。IPM 投影对于全景摄像头在自动泊车系统中至关重要。作业要求完成全景摄像头在 IPM 图像中的投影算法。文档提供了四个来自模拟鱼眼相机的图像以及相机的内外参数，需要完成投影算法的实现并展示最终的 IPM 投影结果。具体步骤包括找到代码中标记为TODO的部分，完成这些部分的实现，然后编译和运行代码，确保最终效果与提供的示例图像一致。; 适合人群：计算机视觉、自动驾驶或相关领域的学生或研究人员，尤其是对图像处理和自动泊车系统有兴趣的人士。; 使用场景及目标：①学习和实践逆向透视映射（IPM）投影算法；②理解全景摄像头在自动泊车系统中的应用；③掌握鱼眼相机图像处理技术。; 阅读建议：此作业不仅涉及代码实现，还要求提交包含代码解释和最终IPM图像结果的PDF文件。因此，在实践中要注意代码的可读性和注释，同时记录实验过程和结果以便撰写报告。

2025-08-09

自动驾驶基于扩展卡尔曼滤波的车辆状态估计实现：预测与更新模型及ROS环境下的轨迹可视化系统设计

内容概要：本文档为《车辆状态估计作业II》，主要内容是通过扩展卡尔曼滤波器（EKF）进行车辆状态估计的实现。具体任务包括：下载vehicle_state_estimation.zip压缩包，根据运动模型（IMU+轮速）完成EkfPredict()函数预测部分，根据测量模型（GPS）完成EkfUpdate()函数更新部分。然后，构建项目并运行节点，在RVIZ中可视化估计轨迹，预期结果是真实轨迹（红色）与估计轨迹（绿色）应非常接近。最后，撰写报告解释EKF函数的完成方法，并附上源代码和RVIZ中估计结果的截图。; 适合人群：具备一定机器人学、自动化控制理论基础，对ROS系统有初步了解的学生或研究人员。; 使用场景及目标：①学习如何基于ROS平台实现EKF算法进行车辆状态估计；②掌握运动模型和测量模型在EKF中的应用；③熟悉RVIZ工具的使用，能够将算法结果可视化展示。; 阅读建议：读者需要按照文档步骤逐步操作，注意理解每个函数的具体功能和实现细节，同时参考相关资料加深对EKF的理解，确保最终实现的效果满足预期要求。

2025-08-09

【自动驾驶领域】自主代客泊车（AVP）理论与实践课程大纲：涵盖定位、感知、规划与控制技术

内容概要：本文介绍了自主代客泊车（AVP）的理论与实践，由上海交通大学溥渊未来技术学院副教授秦通主讲。课程分为十个章节，涵盖了从自主停车的基础概念到具体技术实现的各个方面。课程首先介绍了自主停车的意义及其应用场景，如减少停车难度、节省时间和优化资源利用。接着详细讲解了坐标变换、运动估计、相机模型、语义分割、停车场地图构建、语义定位、轨迹规划以及车辆控制等关键技术。每个章节都配有相应的作业，帮助学生巩固所学内容。最后，课程还包括一个最终模拟项目和前沿分享，使学生能够全面掌握AVP的技术体系。适合人群：对自动驾驶和智能交通领域感兴趣的高校学生、研究人员及工程师，尤其是具备一定编程基础和技术背景的学习者。使用场景及目标：①了解AVP的基本原理和应用场景；②掌握自主停车系统的核心技术，如坐标变换、感知、规划和控制；③通过实际项目操作，提升动手能力和解决实际问题的能力；④为未来从事自动驾驶相关研究或工作打下坚实基础。其他说明：本课程要求学员具备Linux系统操作、C++编程技能、ROS使用经验以及Python/Pytorch的基础知识。此外，硬件方面需要一台配置有Nvidia GPU的计算机，以支持深度学习相关的实验。课程还提供了丰富的参考资料和学习材料，帮助学生更好地理解和掌握相关知识点。

2025-08-09

【自动驾驶泊车域专题课程-作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

【自动驾驶泊车域专题课程--作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

2025-08-09

【自动驾驶泊车域专题课程-作业一】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

内容概要：本文档是关于车辆可视化的作业指南，主要分为两部分内容。第一部分针对Linux/ROS初学者，详细介绍了如何在Ubuntu 20.04上安装和配置ROS Noetic环境，并提供了多个初学者级别的ROS教程链接，涵盖从安装配置环境到创建和构建ROS包、理解ROS节点、主题和服务等内容。第二部分专注于RVIZ可视化，指导用户如何在本地计算机上运行并可视化车辆，包括将源代码放入工作空间、启动roscore、运行节点以及打开RVIZ等步骤。此外，还涉及一个编码任务，要求修改GeneratePose()函数中的x、y和yaw参数，使车辆能够按照指定形状行驶（如矩形、八字形或三角函数曲线）。适合人群：对Linux和ROS有初步了解的初学者，特别是希望深入学习ROS系统及其应用的学生或工程师。使用场景及目标：①帮助用户掌握ROS环境的搭建与配置；②让用户熟悉ROS的基本概念和工具，如节点、主题和服务；③通过实际操作RVIZ实现车辆的可视化，增强对ROS的理解；④通过修改代码实现特定轨迹的车辆运动，提高编程能力。阅读建议：由于本指南包含了大量实践操作的内容，建议读者按照步骤逐一进行尝试，并结合官方提供的教程资源，确保每个环节都能顺利执行。对于编码任务部分，应先理解相关数学原理再动手实践，以便更好地完成任务。

2025-08-09

minist 全部数据集

2025-07-30

Music-Downloader-master.zip

Music-Downloader-master 的相关信息如下： ‌GitHub 仓库‌ 项目地址：kyledong/Music-Downloader‌1 描述：一个音乐下载工具，支持从多个平台下载音乐，界面简洁且功能实用。更新记录：最近一次更新于 2019 年 6 月 30 日，修复了部分文件下载问题‌1。 ‌其他相关项目‌ ‌netease-music-downloader‌：支持网易云音乐的单曲/专辑下载，自动创建目录并跳过已下载文件，可通过 npx 直接运行‌2。 ‌Apple Music Downloader‌：需配合 MuMu 模拟器或 WSL 使用，支持高分辨率无损音乐下载，需配置 Apple Music 账号‌3。 ‌Macsome YouTube Music Downloader 替代方案‌：包括 yt-dlp、youtube-dl 等开源工具，支持 YouTube 音乐转换和下载‌4。 ‌注意事项‌ 部分工具需科学上网或特定环境（如模拟器、WSL）‌23。使用前需确认版权合规性，避免下载受保护内容‌24。

2025-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yolov10s.onnx

rknn-toolkit-lite2-1.6.0-cp38-cp38-linux-aarch64.whl

【计算机视觉】基于Bisenet的地下泊车场景仿真数据集训练与推理：环境配置、常见问题及关键参数解析

【计算机视觉】 基于IPM的全景相机图像拼接算法实现：自动化停车系统中的关键投影技术开发与应用

自动驾驶基于扩展卡尔曼滤波的车辆状态估计实现：预测与更新模型及ROS环境下的轨迹可视化系统设计

【自动驾驶领域】自主代客泊车（AVP）理论与实践课程大纲：涵盖定位、感知、规划与控制技术

【自动驾驶泊车域专题课程-作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

【自动驾驶泊车域专题课程-作业一】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

minist 全部数据集

Music-Downloader-master.zip

空空如也

【计算机视觉】基于IPM的全景相机图像拼接算法实现：自动化停车系统中的关键投影技术开发与应用