athrunsunny-优快云博客

原创 PETR学习笔记

然后将 2D 图像特征和 3D 坐标输入到 3D 位置编码器中，以生成 3D 位置感知特征。其中预设的3d空间点先由backbone提取到的特征图尺寸来确定，比如VoVNet提取的倒数第二层的特征图大小（20*50），此处以输入的图像尺寸（320*800）为例，并由20*50的特征图大小生成均匀的网格（类似yolov5中anchor的生成方式）。主要就是根据点云的x的最大值以及预设的深度（64）来计算每个bin的大小，之后再乘上由深度产生的index得到预设的深度coords_d。

2025-03-23 01:24:46 840

原创 Sparse4D v3:推进端到端3D检测和跟踪

此外，作者使用一种简单的方法将检测器扩展到跟踪器中，该方法在推理过程中分配实例 ID，进一步突出了基于查询（query-based）的算法的优势。在nuScene基准测试上进行的广泛实验验证了本文提出的改进的有效性。以ResNet50为backbone，见证了 mAP、NDS 和 AMOTA 的提升 3.0%、2.2% 和 7.6%，分别达到 46.9%、56.1% 和 49.0%。本文最好的模型在nuScenes测试集上实现了 71.9% 的 NDS 和 67.7% 的 AMOTA。1）自由视图转换。

2025-02-09 22:45:36 990

原创 UA-Track：不确定性感知端到端3D多目标跟踪

论文地址：https://arxiv.org/pdf/2406.02147主页：https://liautoad.github.io/ua-track-website/3D多目标跟踪（MOT）在自动驾驶感知中起着至关重要的作用。最近基于端到端查询的跟踪器可以同时检测和跟踪对象，这在3D MOT任务中显示出巨大的潜力。然而，现有的方法忽略了不确定性问题，即对被跟踪对象的状态和位置缺乏精确的信心。

2025-02-06 22:05:50 1178

原创 Mamba YOLO World

开集检测（OVD）旨在检测预定义类别之外的物体。作为将YOLO系列集成到OVD的SOTA模型，YOLO-World非常适合注重速度和效率的场景。然而，其性能受到其Neck特征融合机制的限制，导致二次复杂度和受限制的引导感受野。为了应对这些限制，作者提出了Mamba-YOLO-World，这是一种基于YOLO的OVD模型，采用MambaFusion Path Aggregation Network（MambaFusion-PAN）作为其Neck架构。

2024-09-19 22:56:48 1449

原创 Mamba-YOLO : 基于SSM的YOLO目标检测算法（附代码）

在深度学习技术的快速进步推动下，YOLO系列为实时目标检测器设立了新的基准。研究人员在YOLO的基础上，不断探索重新参数化、高效层聚合网络和anchor-free技术的创新应用。为了进一步提高检测性能，引入了基于Transformer的结构，显著扩展了模型的感受野，并实现了显著的性能增益。然而，这种改进是有代价的，因为自我注意机制的二次复杂度增加了模型的计算负担。幸运的是，状态空间模型（SSM）作为一种创新技术的出现有效地缓解了由二次复杂度引起的问题。

2024-08-22 21:53:24 3843

原创【LeYOLO】嵌入式和移动端的轻量级YOLO模型

在深度神经网络中，计算效率对于目标检测至关重要，尤其是在新模型更注重速度而非有效计算（FLOP）的情况下。这一演变某种程度上忽视了嵌入式和面向移动端设备的AI目标检测应用。在本文中，作者重点关注基于FLOP的高效目标检测计算的神经网络架构设计选择，并提出几项优化措施来提高基于YOLO模型的效率。1、首先，作者引入了一种受倒置瓶颈（inverted bottlenecks）和来自信息瓶颈（the Information Bottleneck）原理的理论所启发的有效 Backbone 网络缩放方法。

2024-07-10 18:24:55 2576 1

原创 [Multi-Modal] MDETR 论文及代码学习笔记

多模态推理系统依靠预先训练的目标检测器从图像中提取感兴趣区域（边界框包围区域）。然而，这个关键模块通常被用作黑匣子，并在有固定词汇表示的目标和属性的下游任务上独立训练。这使得此类系统很难捕捉以自由形式文本表达的视觉概念的长尾（longtail of visual concepts）目标。本文所提出的MDETR，是一种端到端调制检测器（），检测以原始文本查询（如标题或问题）为条件的图像中的目标。使用基于Transformer的架构，通过在模型的早期阶段融合两种模态，对文本和图像进行联合推理。

2024-07-06 15:44:51 1203

原创 XFeat：速度精度远超superpoint的轻量级图像匹配算法

XFeat (Accelerated Features)重新审视了卷积神经网络中用于检测、提取和匹配局部特征的基本设计选择。该模型满足了对适用于资源有限设备的快速和鲁棒算法的迫切需求。由于准确的图像匹配需要足够大的图像分辨率，算法在限制网络中通道数量的同时保持尽可能大的分辨率。该模型提供稀疏或半密集级别的匹配选择，每种匹配可能更适合不同的下游应用，例如视觉导航和增强现实。

2024-06-02 16:07:16 7889 1

原创 yolov10/v8 loss详解

yolov10出了就想看看它的loss设计有什么不同，看下来由于v8和v10的loss部分基本一致就放一起了。v10的，还没看的可以看看，初步尝试耗时确实有提升好记性不如烂笔头，还是得记录一下，以免忘了，废话结束！！！

2024-05-30 21:23:59 5513 6

原创 YOLOV10实时端到端目标检测

本文介绍了YOLO系列目标检测器在实时和高效方面的优势，但是仍然存在一些缺陷，包括依赖非极大值抑制(NMS)后处理导致部署效率降低，以及模型架构设计还有待进一步优化。提出了一种一致双赋值策略（ consistent dual assignment），用于无需NMS的YOLO训练，可以在保持检测性能的同时提高部署效率。提出了一种全面的高效-高精度驱动的模型设计策略，从效率和精度两个角度对YOLO的各个组件进行了优化设计。

2024-05-25 00:04:10 2098

原创 RANSAC算法理解

RANSAC(RAndom SAmple Consensus，随机采样一致)是一种随机参数估计算法，常常应用于二维图像的拟合、分割等等，由于是估计数学模型参数的迭代算法，因此也被用于三维平面、球的估计。RANSAC算法由Fischler和Bolles于1981年提出，是一种从数据集合中迭代稳健估计模型参数的方法。

2024-05-21 21:20:04 1740

原创最强特征点检测算法 DeDoDe v1/v2

关键点检测是3D重建中的关键步骤，通过该步骤可以在场景的每个视图中检测到（最多）K个点的集合。至关重要的是，检测到的点需要在视图之间保持一致，即对应于场景中的同一3D点。关键点检测的主要挑战之一是学习目标的制定。以前基于学习的方法通常将描述符与关键点联合学习，并将关键点检测视为对相互最近邻的二元分类任务。然而，基于描述符最近邻的关键点检测是一项代理任务，不能保证产生3D一致的关键点。此外，这将关键点与特定描述符联系在一起，使下游使用变得复杂。在这项工作中，直接从3D一致性中学习关键点。

2024-05-08 00:03:31 1070

原创 GhostNetV3：探索紧凑型模型的训练策略学习笔记

紧凑型神经网络是专门为边缘设备上的应用而设计的，具有更快的推理速度和适度的性能。然而，目前紧凑型模型的训练策略是从传统模型中借鉴的，这忽略了它们在模型容量上的差异，从而可能会阻碍紧凑模型的性能。在本文中，通过系统地研究不同训练成分的影响，作者为紧凑模型引入了一种强训练策略。重参数化和知识蒸馏的适当设计对于训练高性能紧凑型模型至关重要，而用于训练传统模型的一些常用数据增强，如Mixup和CutMix，会导致较差的性能。

2024-04-21 01:03:30 2931 2

原创 DQ-DETR: DETR WITH DYNAMIC QUERY FOR TINY OBJECTDETECTION 学习笔记

此DQ-DETR与提出的同名，其主要集中于小目标的检测尽管之前的类似DETR的方法在通用目标检测中取得了成功，但在小目标检测方面仍然具有挑战性，因为目标 Query 的位置信息并未针对检测小物体进行定制，这些小物体的尺寸比一般物体小得多。此外，类似DETR的方法使用固定数量的 Query ，这使得它们不适用于只包含小物体的航空数据集，且不同图像之间的实例数量不平衡。

2024-04-20 22:12:30 2513

原创 MobileNetV4-移动设备生态系统的通用模型学习笔记

这篇论文介绍了最新一代MobileNet卷积神经网络，被称为MobileNetV4(MNv4)，旨在为移动设备提供通用高效的架构设计。

2024-04-18 18:46:42 7882 1

原创 RMT: Retentive Networks Meet Vision Transformers学习笔记

Transformer首次出现在自然语言处理领域，后来迁移到计算机视觉领域，在视觉任务中表现出出色的性能。然而，最近，Retentive Network（RetNet）作为一种有可能取代Transformer的架构出现，引起了自然语言处理社区的广泛关注。因此，作者提出了一个问题，即将RetNet的思想迁移到视觉领域是否也能为视觉任务带来出色的性能。为了解决这个问题，作者将RetNet和Transformer结合起来，提出了RMT。

2024-04-14 23:10:06 2699

原创 yolo增加Focaler-IoU

在目标检测领域，边界框回归起着至关重要的作用，而目标检测的定位精度很大程度上取决于边界框回归的损失函数。现有研究通过利用边界框之间的几何关系来提高回归性能，而忽略了难以和容易样本分布对边界框回归的影响。在这篇文章中，作者分析了难以和容易样本分布对回归结果的影响，然后提出了Focaler-IoU，通过关注不同的回归样本，该方法可以提高不同检测任务中的检测器性能。最后，作者使用现有的高级检测器和回归方法进行了不同检测任务的比较实验，并使用本文提出的办法进一步提高了检测性能。

2024-04-14 15:17:21 1718

原创 FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation 灵活、准确、稳健的 6DoF 相对相机姿态估计

估计图像之间的相对相机姿势一直是计算机视觉的核心问题。在大多数情况下，查找对应关系并求解基本矩阵的方法具有很高的精度（通过提取关键点进行匹配，如sift相反，直接使用神经网络预测姿态的方法对有限的重叠更可靠，并且可以推断出绝对的平移尺度，但代价是精度降低。作者的方法展示了如何结合两种方法的优点;我们的方法产生的结果既精确又稳健，同时还能准确地推断出平移尺度。模型的核心是一个，它1学习在求解（关键点匹配）和学习（直接预测）的姿态估计之间取得平衡，以及2。

2024-04-09 15:03:30 1331

原创 Windows下使用pybind11编译KMSolver

的库是预编译好的，仅支持特定的python3.7和linux环境，所以这里想在windows11下用pybind11编译KMSolver用python调用C++代码。打开cmake路径和编译器配置好后点生成，之后在build路径下找到Hungarian Algorithm.sln，并双击打开。最近搞相机重定位的项目，大多都是在linux系统上写的，使用windows配环境就非常多问题。项目在linux下运行正常，主要是想在windows下使用这个代码，其中有个。在当前路径下创建一个build目录。

2024-03-30 14:31:12 671

原创 DECO: Query-Based End-to-End Object Detection with ConvNets 学习笔记

近年来，Detection Transformer （DETR）及其变体在准确检测目标方面显示出巨大的潜力。对象查询机制使DETR系列能够直接获得固定数量的目标预测，并简化了检测 pipeline。同时，最近的研究还表明，通过适当的架构设计，ConvNeXt这样的卷积网络（ConvNets）也可以与 transformers等变压器实现竞争性能。为此，在本文中，作者探讨了是否可以使用 ConvNet 而不是复杂的 transformer 架构构建基于查询的端到端目标检测框架。

2024-03-21 23:42:11 1400

原创 YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

在此基础上，研究者对ELAN的应用范围进行了扩展，使其不再局限于传统的卷积层堆叠方式，而是能够灵活地适配各种计算单元，显著提升了网络的通用性和适应性。通过这种方法，主分支的特征金字塔不再仅仅被某一特定规模目标的信息所支配，而是能够综合考虑各种规模的目标信息，从而解决了深度监督可能引起的信息断裂问题。此外，多级辅助信息机制的灵活性体现在任何类型的集成网络都可以被用作信息聚合的工具，使得研究者能够根据不同大小的网络架构需求，定制化地规划所需的语义层级，从而指导模型学习。所有实验的结果列于表4中。

2024-02-22 13:47:01 923

原创特征提取匹配方案不止SuperPoint

局部特征匹配在计算机视觉领域广泛应用，涵盖图像检索、3D重建和目标识别等领域。然而，由于视点和光照变化等因素，改进匹配的准确性和鲁棒性仍然面临挑战。近年来，深度学习模型的引入引发了对局部特征匹配技术的广泛探索。基于检测器的类别包括Detect-then-Describe、Joint Detection and Description、Describe-then-Detect以及基于图的技术。相反，不使用检测器的类别包括基于CNN的、基于Transformer的和基于Patch的方法。

2024-02-19 18:03:14 667

原创解决python环境下Failed to load OpenH264 library: openh264-1.8.0-win64.dll

将该文件复制到虚拟环境中python工程根目录下，如下图我的环境名为yolo_cuda，将dll文件复制到此路径下即可。选择好自己的系统对应的库文件，我是windows，下载的是openh264-1.8.0-win64.dll。主要是应为原生安装的OpenCV是没有H264编码器的，需要自行配置。这里配置的是anaconda下python的虚拟环境。

2024-01-26 10:46:30 3426

原创 GroupMixFormer：Advancing Vision Transformers with Group-Mix Attention论文学习笔记

ViT 已被证明可以通过使用多头自注意力（MHSA）对远程依赖关系进行建模来增强视觉识别，这通常被表述为Query-Key-Value 计算。但是，从“Query”和“Key”生成的注意力图仅捕获单个粒度的token-to-token的相关性。在本文中，作者认为自注意力应该有一个更全面的机制来捕捉 tokens和groups（即多个相邻tokens）之间的相关性，以获得更高的表征能力。

2024-01-20 15:47:26 1673

原创 MS-DETR: Efficient DETR Training with Mixed Supervision论文学习笔记

DETR 通过迭代生成多个基于图像特征的目标候选者，并为每个真实目标分配一个候选者，从而实现端到端的目标检测。在原始DETR中使用一对一监督的传统训练方法缺乏对检测候选者的直接监督。作者旨在通过明确监督候选生成过程，将一对一监督和多对多监督混合，来提高DETR训练效率。MS-DETR简单地将多对多监督应用到用于推理的主要解码器（primary decoder）object query 上。

2024-01-15 22:35:20 2315 1

原创 yolo增加Shape-IoU，完美超越SIoU/EIoU/CIoU

作为检测定位分支的重要组成部分，边界框回归损失在目标检测任务中起着重要作用。现有的边界框回归方法通常考虑GT框和预测框之间的几何关系，通过相对位置和框形来计算损失，而忽略边界框的固有属性（如边界框的形状和尺寸）对边界框回归的影响。为了弥补现有研究的不足，本文提出了一种关注边界框自身形状和尺寸的边界框回归方法。首先，分析了边界框的回归特性，并发现边界框自身的形状和尺寸因素将对回归结果产生影响。基于上述结论提出了Shape IoU方法，该方法通过关注边界框自身的形状和尺寸来计算损失，从而使边界框回归更准确。

2024-01-03 18:39:05 8591 13

原创解决-bash: /usr/bin/mv: Argument list too long

最近搞了个几百万张的图像数据到服务器上，使用mv移动数据时出现了"-bash: /usr/bin/mv: Argument list too long"的错误。命令，可以避免命令行参数列表太长的问题。命令，并将它们移动到目标文件夹中。命令将这些文件路径作为参数传递给。命令来查找源文件夹下所有后缀为。替换为实际的目标文件夹路径。的文件，并将它们的路径传递给。替换为实际的源文件夹路径，

2023-12-29 09:17:35 2622

原创 TransNeXt：稳健的注视感知ViT学习笔记

由于残差连接中的深度衰减效应，许多依赖堆叠层进行信息交换的高效视觉Transformer模型往往无法形成足够的信息混合，导致视觉感知不自然。为了解决这个问题，本文提出了一种基于生物模拟的聚合注意力，这是一种模拟生物注视（biological foveal vision）和连续眼动的设计基础的token mixer，它允许特征图上的每个Token都具有全局感知。

2023-12-28 22:42:23 6980

原创 yolov7简化网络yaml配置文件

了解v7的都知道，配置文件中网络层数多达100多层，不过并不复杂，相似的模块比较多，可以看到简化后配置文件的层数也就31层。贫穷打工牛马，项目之余改的，感觉改的还不是很优雅，欢迎小伙伴多提意见。之后修改yolo.py的cfg路径，如果运行成功能看到最上面的图。首先创建 yolov7-ELAN-E.yaml。本篇介绍如何简化yolov7的网络配置文件。在BaseModel的fuse函数中添加。在parse_model中添加模块名。在common.py中添加。

2023-12-14 00:27:38 1276

原创 Group DETR:分组一对多匹配是加速DETR收敛的关键学习笔记

就是将输入decoder的query由300拓展到300*11（group）共3300，将其同时输入到decoder中一起计算。在计算loss时，在匈牙利匹配阶段会拆分为11组分别进行匹配，最后将各组的匹配结果，也就是索引值，再加上所在。

2023-12-06 10:39:07 2363

原创旋转框（obb）目标检测计算iou的方法

首先先定义一组多边形，这里的数据来自前后帧的检测结果其中的每个列表元素代表一个多边形，列表中包含四个元素，分别代表多边形的顶点坐标。

2023-11-30 18:10:38 1927

原创 Co-DETR:DETRs与协同混合分配训练代码学习笔记

此外，作者通过从这些辅助头部提取正坐标来进行额外的定制正查询，以提高解码器中正样本的训练效率。这里的encoder和decoder的deformable attention在\anaconda3\envs\codetr\Lib\site-packages\mmcv\ops\multi_scale_deform_attn.py中。代码的配置文件\Co-DETR\projects\configs\co_deformable_detr\co_deformable_detr_r50_1x_coco.py。

2023-11-25 23:15:51 3361 2

原创 Co-DETR:DETRs与协同混合分配训练论文学习笔记

作者提出了一种新的协同混合任务训练方案，即Co-DETR，以从多种标签分配方式中学习更高效的基于detr的检测器。这种新的训练方案通过训练ATSS和等一对多标签分配监督下的多个并行辅助头部，可以很容易地提高编码器在端到端检测器中的学习能力。此外，作者通过从这些辅助头部提取正坐标来进行额外的定制正查询，以提高解码器中正样本的训练效率。在推理中，这些辅助头被丢弃，因此，作者的方法不给原始检测器引入额外的参数和计算成本，同时不需要手工制作的非最大抑制(NMS)。

2023-11-23 23:26:13 5935

原创 ts视频文件转为mp4(FFmpeg)

有些视频资源下载下来之后发现是.ts的文件，除了用下载它时用的工具或是浏览器才能看，那有没有将ts文件转换成更加通用视频格式的方法。如果是windows系统，可以新建一个.bat的批处理文件，并将如下代码写入。大多时候ts文件并不是单个存在的，这里就需要将其合并之后再转换成mp4。的形式保存在file_paths.txt中。几乎万能的音视频工具--ffmpeg登场。1、对于单个.ts文件，将其转换为mp4。2、多个.ts文件，将其转换为mp4。

2023-11-17 20:41:38 4943 1

原创 yolo增加Inner-IoU，一文搞定（Inner-SIoU，Inner-WIoU，Inner-EIoU，Inner-MPDIoU）

随着检测器的迅速发展, 边框回归取得了巨大的进步。然而，现有的基于 IoU 的边框回归仍聚焦在通过加入新的损失项来加速收敛，忽视 IoU 损失项其自身的限制。尽管理论上 IoU 损失能够有效描述边框回归状态，在实际应用中，它无法根据不同检测器与检测任务进行自我调整，不具有很强的泛化性。基于以上，我们首先分析了 BBR 模式，得出结论在回归过程区分不同回归样本并且使用不同尺度的辅助边框计算损失能够有效加速边框回归过程。

2023-11-17 12:16:04 10354 4

原创 yolo改进替换VanillaNet backbone

基础模型的核心是“更多不同”的哲学，计算机视觉和自然语言处理的惊人成功就是例证。然而，优化的挑战和Transformer模型固有的复杂性要求范式向简单转变。在本研究中，我们介绍了VanillaNet，一个在设计中包含优雅的神经网络架构。通过避免高深度、快捷方式和复杂的操作，如自注意力，VanillaNet是令人耳目一新的简洁，但非常强大。每一层都被精心制作成紧凑和简单的结构，非线性激活函数在训练后被剪枝，以恢复原始的架构。VanillaNet克服了固有复杂性的挑战，使其成为资源紧张环境的理想选择。

2023-11-16 22:41:09 1101 5

原创 RT-DETR代码学习笔记（DETRs Beat YOLOs on Real-time Object Detection）

基于Transformer的端到端检测器（DETR）已经取得了显著的性能。然而，DETR的高计算成本问题尚未得到有效解决，这限制了它们的实际应用，并使它们无法充分利用无后处理的好处，如非最大值抑制（NMS）。本文首先分析了现代实时目标检测器中NMS对推理速度的影响，并建立了端到端的速度基准。为了避免NMS引起的推理延迟，作者提出了一种实时检测Transformer（RT-DETR），这是第一个实时端到端目标检测器。

2023-11-09 11:07:46 2811 1

原创 mmcv中出现TypeError: FormatCode() got an unexpected keyword argument ‘verify‘

主要是因为最新版的yapf（0.40.2）中删除了verify的验证功能。最近安装Co-DETR项目环境时遇到如下的问题。

2023-10-30 18:21:24 3729 3

原创 FoLR:Focus on Local Regions for Query-based Object Detection论文学习笔记

自从DETR问询式检测器首次亮相以来，基于查询的方法在目标检测中引起了广泛关注。然而，这些方法面临着收敛速度慢和性能亚优等挑战。值得注意的是，在目标检测中，自注意力机制经常因其全局聚焦而妨碍了收敛。为了解决这些问题，作者提出了FoLR，一种仅包含解码器的类似Transformer的架构。作者通过隔离不相关目标之间的连接来增强自注意力机制，使其聚焦于局部区域而不是全局区域。作者还设计了自适应采样方法，从特征图中基于查询的局部区域提取有效特征。

2023-10-24 23:35:20 990

原创试图带你一文搞懂transformer注意力机制（Self-Attention）的本质

162和160之间的距离为2，162与166之间的距离为4，160与166之间的距离为6，那么162->160取4/6的权重，162->166取2/6的权重。因为162在[160,166]之间，所以这里很容易的为他们分配更多的权重，更加的注意他们，越近分配的权重越大，分别为他们分配了2/3和1/3的注意力权重。但是在字典中，可能其他的键值对（key，value）对该query也可能存在影响，但是我们没有用上，那么要怎么用上字典中的所有数据，让估计的值更准确呢？所对应的注意力权重，那么体重的预测值。

2023-10-12 18:27:00 1315

2024年之前局部特征匹配算法总结，匹配不止superpoint

mdetr_annotations.tar.zip.001

mdetr_annotations.tar.zip.005

mdetr_annotations.tar.zip.003

mdetr_annotations.tar.zip.002

mdetr_annotations.tar.zip.004

r50-deformable-detr-checkpoint.pth

人工智能领域的多任务分支深度学习

widerface lanmark ground truth

人脸关键点数据集（非常小，测试代码用）

COCO128.zip

《Linux基础学习》

空空如也