
论文阅读
文章平均质量分 92
Limiiiing
YOLO系列,RT-DETR模型、多模态融合改进。专栏内所有文章均配置完整代码和详细步骤,亲测可行,快速涨点。订阅专栏享受改进,写作,选刊等答疑内容,助力科研,发文无忧。
展开
-
【YOLOv12原文翻译】YOLOv12: Attention-Centric Real-Time Object Detectors
长期以来,增强YOLO框架的网络架构一直是关键,但主要集中在基于CNN的改进上,尽管注意力机制在建模能力上已被证明具有优越性。这是因为基于注意力的模型无法与基于CNN的模型的速度相匹配。本文提出了一种以注意力为中心的YOLO框架,即YOLOv12,它在保持与之前基于CNN模型相当速度的同时,充分利用了注意力机制的性能优势。YOLOv12在准确性上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。原创 2025-02-26 14:42:03 · 1132 阅读 · 0 评论 -
如何做好一份关于计算机视觉的技术文档
在当今数字化飞速发展的时代,计算机视觉技术正广泛应用于各个领域,从安防监控到自动驾驶,从医疗影像诊断到娱乐互动。而一份清晰、准确且实用的计算机视觉技术文档,对于技术的传播、项目的推进以及团队协作起着至关重要的作用。那么,如何才能做好这样一份技术文档呢?原创 2024-12-25 11:12:42 · 405 阅读 · 0 评论 -
【论文阅读】DETRs Beat YOLOs on Real-time Object Detection
YOLO系列由于在速度和准确性之间的合理权衡,已成为最受欢迎的实时目标检测框架。然而,我们观察到YOLO的速度和准确性受到NMS的负面影响。最近,基于端到端Transformer的检测器(DETRs)为消除NMS提供了一种替代方案。尽管如此,高计算成本限制了它们的实用性,并阻碍了它们充分发挥排除NMS的优势。在本文中,我们提出了实时检测Transformer(RT - DETR),据我们所知,这是第一个解决上述困境的实时端到端目标检测器。原创 2024-09-07 14:31:35 · 2925 阅读 · 0 评论 -
【论文阅读】YOLOv10: Real-Time End-to-End Object Detection
在过去的几年里,由于在计算成本和检测性能之间取得了有效的平衡,YOLOs已经成为实时目标检测领域的主导范式。研究人员已经对yolo的架构设计、优化目标、数据增强策略等进行了探索,并取得了显著进展。然而,对非最大抑制(NMS)的后处理依赖阻碍了yolo的端到端部署,并对推理延迟产生不利影响。此外,YOLOs中各部件的设计缺乏全面彻底的检查,导致计算冗余明显,限制了模型的能力。它提供了次优的效率,以及相当大的性能改进潜力。在这项工作中,我们的目标是从后处理和模型架构两个方面进一步推进YOLOs的性能效率边界。原创 2024-08-26 21:08:43 · 3574 阅读 · 0 评论 -
【论文阅读】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
今天的深度学习方法关注的是如何设计最合适的目标函数,使模型的预预测结果最接近地面的真实情况。同时,必须设计一个适当的体系结构,以方便获取足够的预测信息。现有方法忽略了一个事实,即输入数据在逐层进行特征提取和空间变换时,会丢失大量的信息。本文将深入研究数据在深度网络中传输时的重要数据丢失问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络为实现多个目标所需要的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息来更新网络权值。原创 2024-08-25 16:29:25 · 1214 阅读 · 0 评论 -
【论文阅读】MobileNetV4 - Universal Models for the Mobile Ecosystem
我们介绍了最新一代的 MobileNets,即 MobileNetV4(MNv4),其特点是针对移动设备的通用高效架构设计。在其核心部分,我们引入了通用反向瓶颈(UIB)搜索块,这是一种统一而灵活的结构,融合了反向瓶颈(IB)、ConvNext、前馈网络(FFN)和一种新颖的 Extra Depthwise(ExtraDW)变体。除了 UIB,我们还提出了移动 MQA,这是一个专为移动加速器定制的注意力模块,可显著提高 39% 的速度。原创 2024-08-08 21:44:51 · 2672 阅读 · 2 评论