论文阅读
文章平均质量分 93
Limiiiing
YOLO系列,RT-DETR模型、多模态融合改进。专栏内所有文章均配置完整代码和详细步骤,亲测可行,快速涨点。订阅专栏享受改进,写作,选刊等答疑内容,助力科研,发文无忧。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文翻译:Haar wavelet downsampling: A simple but effective downsampling module for semantic segmentation
最大池化或步长卷积等下采样操作在卷积神经网络(CNNs)中被广泛用于聚合局部特征、扩大感受野并最小化计算开销。然而,对于语义分割任务,局部邻域的池化特征可能导致重要空间信息的丢失,而这些信息有利于逐像素预测。为解决这一问题,我们引入了一种简单而有效的池化操作,称为基于Haar小波的下采样(HWD)模块。该模块可轻松集成到CNNs中以提升语义分割模型的性能。HWD的核心思想是应用Haar小波变换来降低特征图的空间分辨率,同时尽可能保留信息。原创 2025-09-03 22:41:28 · 728 阅读 · 0 评论 -
【论文翻译】A Multilevel Multimodal Fusion Transformer for Remote Sensing Semantic Segmentation
遥感数据的准确语义分割在地球科学研究与应用的成功中起着关键作用。最近,基于多模态融合的分割模型因其与传统单模态技术相比的出色性能而备受关注。然而,这些模型大多使用卷积神经网络(CNN)或视觉Transformer(ViT)进行融合操作,导致局部-全局上下文建模和表示能力不足。在这项工作中,提出了一种称为FTransUNet的多级多模态融合方案,通过将CNN和ViT集成到一个统一的融合框架中,为语义分割提供了一个强大而有效的多模态融合主干。首先,浅层特征通过卷积层和浅层特征融合(SFF)模块进行提取和融合。原创 2025-09-03 22:40:21 · 888 阅读 · 0 评论 -
论文翻译:YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception
YOLO系列模型因其卓越的准确性和计算效率,在实时目标检测领域占据主导地位。然而,YOLOv11及更早版本的卷积架构,以及YOLOv12中引入的基于区域的自注意力机制,均局限于局部信息聚合和成对相关性建模,缺乏捕捉全局多对多高阶相关性的能力,这限制了其在复杂场景中的检测性能。在本文中,我们提出了YOLOv13,一种精确且轻量级的目标检测器。原创 2025-08-10 11:03:40 · 263 阅读 · 0 评论 -
论文翻译:Wavelet Convolutions for Large Receptive Fields
近年来,人们尝试增加卷积神经网络(CNNs)的核大小,以模仿视觉Transformer(ViTs)自注意力模块的全局感受野。然而,这种方法很快达到了上限,在实现全局感受野之前就已性能饱和。在这项工作中,我们证明了通过利用小波变换(WT),实际上可以获得非常大的感受野,而不会遭受过参数化问题。例如,对于k×k的感受野,所提出方法中的可训练参数数量仅随k呈对数增长。所提出的层称为WTConv,可以直接替代现有架构中的深度可分离卷积,产生有效的多频响应,并且随感受野大小优雅地扩展。原创 2025-08-02 17:10:30 · 1050 阅读 · 0 评论 -
【论文翻译】ACDF-YOLO: Attentive and Cross-Differential Fusion Network for Multimodal Remote Sensing Objec
遥感图像中的目标检测在广泛的应用中受到了显著关注。然而,传统的单模态遥感图像,无论是基于可见光还是红外,都存在不可忽视的局限性。可见光图像易受环境光照条件影响,其检测精度会大幅降低。红外图像往往缺乏丰富的纹理信息,导致目标识别和分类过程中误检率较高。为应对这些挑战,我们提出了一种新颖的多模态融合网络检测模型,名为ACDF-YOLO。该模型基于轻量级且高效的YOLOv5结构,旨在融合可见光和红外图像的协同数据,从而提升遥感图像中目标识别的效率。原创 2025-08-02 17:09:30 · 1162 阅读 · 0 评论 -
【YOLOv12原文翻译】YOLOv12: Attention-Centric Real-Time Object Detectors
长期以来,增强YOLO框架的网络架构一直是关键,但主要集中在基于CNN的改进上,尽管注意力机制在建模能力上已被证明具有优越性。这是因为基于注意力的模型无法与基于CNN的模型的速度相匹配。本文提出了一种以注意力为中心的YOLO框架,即YOLOv12,它在保持与之前基于CNN模型相当速度的同时,充分利用了注意力机制的性能优势。YOLOv12在准确性上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。原创 2025-02-26 14:42:03 · 1858 阅读 · 0 评论 -
如何做好一份关于计算机视觉的技术文档
在当今数字化飞速发展的时代,计算机视觉技术正广泛应用于各个领域,从安防监控到自动驾驶,从医疗影像诊断到娱乐互动。而一份清晰、准确且实用的计算机视觉技术文档,对于技术的传播、项目的推进以及团队协作起着至关重要的作用。那么,如何才能做好这样一份技术文档呢?原创 2024-12-25 11:12:42 · 454 阅读 · 0 评论 -
【论文阅读】DETRs Beat YOLOs on Real-time Object Detection
YOLO系列由于在速度和准确性之间的合理权衡,已成为最受欢迎的实时目标检测框架。然而,我们观察到YOLO的速度和准确性受到NMS的负面影响。最近,基于端到端Transformer的检测器(DETRs)为消除NMS提供了一种替代方案。尽管如此,高计算成本限制了它们的实用性,并阻碍了它们充分发挥排除NMS的优势。在本文中,我们提出了实时检测Transformer(RT - DETR),据我们所知,这是第一个解决上述困境的实时端到端目标检测器。原创 2024-09-07 14:31:35 · 3816 阅读 · 0 评论 -
【论文阅读】YOLOv10: Real-Time End-to-End Object Detection
在过去的几年里,由于在计算成本和检测性能之间取得了有效的平衡,YOLOs已经成为实时目标检测领域的主导范式。研究人员已经对yolo的架构设计、优化目标、数据增强策略等进行了探索,并取得了显著进展。然而,对非最大抑制(NMS)的后处理依赖阻碍了yolo的端到端部署,并对推理延迟产生不利影响。此外,YOLOs中各部件的设计缺乏全面彻底的检查,导致计算冗余明显,限制了模型的能力。它提供了次优的效率,以及相当大的性能改进潜力。在这项工作中,我们的目标是从后处理和模型架构两个方面进一步推进YOLOs的性能效率边界。原创 2024-08-26 21:08:43 · 4295 阅读 · 0 评论 -
【论文阅读】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
今天的深度学习方法关注的是如何设计最合适的目标函数,使模型的预预测结果最接近地面的真实情况。同时,必须设计一个适当的体系结构,以方便获取足够的预测信息。现有方法忽略了一个事实,即输入数据在逐层进行特征提取和空间变换时,会丢失大量的信息。本文将深入研究数据在深度网络中传输时的重要数据丢失问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络为实现多个目标所需要的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息来更新网络权值。原创 2024-08-25 16:29:25 · 1500 阅读 · 0 评论 -
【论文阅读】MobileNetV4 - Universal Models for the Mobile Ecosystem
我们介绍了最新一代的 MobileNets,即 MobileNetV4(MNv4),其特点是针对移动设备的通用高效架构设计。在其核心部分,我们引入了通用反向瓶颈(UIB)搜索块,这是一种统一而灵活的结构,融合了反向瓶颈(IB)、ConvNext、前馈网络(FFN)和一种新颖的 Extra Depthwise(ExtraDW)变体。除了 UIB,我们还提出了移动 MQA,这是一个专为移动加速器定制的注意力模块,可显著提高 39% 的速度。原创 2024-08-08 21:44:51 · 3488 阅读 · 2 评论
分享