自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI浩

分享人工智能知识,包括:计算机视觉、NLP以及机器学习等领域。注重基础与实践,尽最大的努力让每个初学者看懂学会。

  • 博客(1738)
  • 资源 (166)
  • 收藏
  • 关注

原创 回归基础:让去噪生成模型真正去噪

当今的去噪扩散模型并不以经典意义上的"去噪"方式进行工作,也就是说,它们并不直接预测干净的图像。相反,神经网络预测的是噪声或含噪量。在本文中,我们认为预测干净数据和预测含噪量在本质上是不同的。根据流形假设,自然数据应位于低维流形上,而含噪量则不然。基于这一假设,我们提倡使用直接预测干净数据的模型,这使得明显容量不足的网络仍能在非常高维的空间中有效运行。我们证明,简单的、基于大图像块的像素Transformer可以成为强大的生成模型:无需分词器、无需预训练、无需额外损失。

2025-11-21 09:31:50 710

原创 【Block总结】HLKConv卷积,用于红外小目标检测的动态局部上下文表示学习|即插即用

【代码】【Block总结】HLKConv卷积,用于红外小目标检测的动态局部上下文表示学习|即插即用。

2025-11-20 07:05:45 207

原创 用于红外小目标检测的动态局部上下文表示学习

如图3所示,所提出方法的整体架构遵循近年来广泛采用的U-Net结构[56]–[58]。LCRNet由堆叠的C2FBlock组成,C2FBlock的核心组件是提出的DLC-Attention和HLKConv。模型以尺寸为1×H×W1×H×W的图像作为输入。首先通过3×33\times33×3卷积(InitConv)处理,将特征图的维度增加到C1C_{1}C1​,然后经过一系列C2FBlock在不同分辨率下进行处理。最后,一个3×33\times33×3。

2025-11-19 22:30:13 458

原创 T-Rex-Omni:在通用目标检测中集成负向视觉提示

论文链接:https://arxiv.org/pdf/2511.08997v1目标检测方法近年来已从闭集范式发展到开集范式。然而,当前的开集目标检测器仍然受限于其仅依赖基于给定提示(如文本描述或视觉示例)的正向指示器。这种仅使用正向提示的范式在面对视觉相似但语义不同的干扰物时持续表现出脆弱性。我们提出了 T-Rex-Omni,一个通过引入负向视觉提示来否定困难负例干扰物的新颖框架。具体来说,我们首先引入了一个统一的视觉提示编码器,用于联合处理正向和负向视觉提示。

2025-11-18 21:00:00 620

原创 Cambrian-S:迈向视频中的空间超感知

我们认为,真正多模态智能的进展需要从反应式、任务驱动的系统和暴力长上下文处理转向一个更广泛的超感知范式。我们将空间超感知定义为超越纯语言理解的四个阶段:语义感知(命名所见之物)、流事件认知(在连续体验中维持记忆)、隐式3D空间认知(推断像素背后的世界)以及预测性世界建模(创建过滤和组织信息的内部模型)。当前的基准测试主要只检验早期阶段,对空间认知的覆盖范围狭窄,并且很少以需要真正世界建模的方式来挑战模型。

2025-11-17 09:06:20 1224

原创 undefined symbol: _ZN3c104cuda9SetDeviceEab

【代码】undefined symbol: _ZN3c104cuda9SetDeviceEab。

2025-11-14 23:30:00 290

原创 VSSD:具有非因果状态空间对偶性的视觉Mamba模型

视觉变换器显著推动了计算机视觉领域的发展,提供了强大的建模能力和全局感受野。然而,其高计算需求限制了其在处理长序列时的应用。为了解决这个问题,状态空间模型(SSMs)在视觉任务中崭露头角,因为它们提供了线性计算复杂度。最近,Mamba2中引入了状态空间对偶性(SSD),这是SSMs的一种改进变体,旨在提升模型性能和效率。然而,SSD/SSMs固有的因果性质限制了它们在非因果视觉任务中的应用。为了解决这一限制,我们引入了视觉状态空间对偶性(VSSD)模型,它具有SSD的非因果形式。

2025-11-14 20:00:00 1946

原创 module ‘torch.compiler‘ has no attribute ‘is_compiling‘

或者升级pytorch版本,

2025-11-13 22:45:00 250

原创 人群计数的课程学习——是否值得:

深度学习技术的最新进展在多个计算机视觉问题上取得了显著性能。最近引入了一种名为课程学习(CL)的直观技术用于训练深度学习模型。令人惊讶的是,课程学习在某些任务中取得了显著改进的结果,但在其他任务中仅带来边际改进或无改进。因此,关于是否将其作为训练监督学习模型的标准方法仍存在争议。在这项工作中,我们研究了课程学习在使用密度估计方法的人群计数中的影响。我们通过使用八种不同的人群模型和六种不同的 CL 设置进行了 112 次实验来执行详细调查。我们的实验表明,课程学习提高了模型的学习性能并缩短了收敛时间。

2025-11-13 22:00:00 767

原创 CrowdDiff: 使用扩散模型进行多假设人群密度估计

人群计数是人群分析中的一个基本问题,通常通过估计人群密度图并对密度值求和来完成。然而,这种方法存在背景噪声积累和由于使用宽高斯核创建真实密度图而导致的密度损失问题。通过缩小高斯核可以克服这个问题。然而,当使用宽高斯核的真实密度图进行训练时,现有方法表现不佳。为了解决这个限制,我们提出使用条件扩散模型来预测密度图,因为扩散模型在生成过程中对训练数据具有高保真度。为此,我们提出了CrowdDiff,它通过反向扩散过程生成人群密度图。

2025-11-13 22:00:00 964

原创 密度估计与人群计数的深度学习方法综述

准确估计单张图像中的物体数量是一项具有挑战性但有意义的任务,并已应用于许多应用中,例如城市规划与公共安全。在各种物体计数任务中,人群计数由于其对社会安全与发展的特定意义而尤为突出。幸运的是,人群计数技术的发展可以推广到其他相关领域,例如车辆计数和环境调查,如果不考虑其特性的话。因此,许多研究人员致力于人群计数,并涌现出许多优秀的工作,极大地推动了人群计数的发展。然而,我们需要考虑的一个问题是,我们距离解决计数问题还有多远?受限于时间和精力成本,我们无法分析所有算法。

2025-11-13 13:37:00 1923

原创 SMamba: 基于稀疏Mamba的事件相机目标检测

基于Transformer的方法在事件相机目标检测中取得了显著的性能,这得益于其全局建模能力。然而,这些方法忽视了非事件区域和噪声区域的影响,并统一处理这些区域,导致计算开销很高。为了减轻计算成本,一些研究人员提出了基于窗口注意力的稀疏化策略来丢弃不重要的区域,但这牺牲了全局建模能力,导致次优性能。为了在准确性和效率之间取得更好的权衡,我们提出了稀疏Mamba(SMamba),它通过自适应稀疏化减少计算量,同时保持全局建模能力。

2025-11-11 19:15:00 1208

原创 SL-YOLO:一种更强更轻量的无人机目标检测模型

在复杂场景中检测小目标(如无人机拍摄的图像)是一项艰巨的挑战,因为难以捕捉小目标的复杂特征。虽然YOLO系列在大目标检测方面取得了巨大成功,但在面对小目标时,其性能却不尽如人意。因此,本文提出了一种革命性模型SL-YOLO(Stronger and Lighter YOLO,更强更轻量的YOLO),旨在打破小目标检测的瓶颈。

2025-11-11 07:08:02 1159

原创 LARS:基于自适应通道注意力与大核自适应的遥感小目标检测网络

整体模型结构分为三个部分:骨干网络、颈部网络和头部网络,如图1所示。在骨干网络部分,使用ACA块来捕获图像不同通道中包含的特定语义特征,如颜色和纹理。该块内设置的自适应加权使模型能够更多地关注局部信息,引导模型关注小目标区域。然后,LKA块分析该区域与周围感受野的局部和全局相关性,准确提取输入图像的高级特征表示,用于后续的目标检测任务。颈部部分使用特征金字塔网络(FPN)架构进行特征融合和上采样,以进一步处理骨干网络提取的特征,增强模型对不同尺度目标的敏感性。

2025-11-09 08:52:07 1114

原创 SOAR:利用状态空间模型和可编程梯度进行航空影像中小目标物体检测的进展

航空影像中的小目标检测在计算机视觉领域面临着重大挑战,这是由于小尺寸目标固有的数据量极少,以及它们容易被较大目标和背景噪声遮挡。传统的基于Transformer的模型方法常常受到缺乏专门数据库的限制,这对其处理不同朝向和尺度目标的性能产生不利影响。这凸显了对更适应性强、轻量级模型的需求。对此,本文介绍了两种创新方法,显著增强了对航空小目标的检测和分割能力。

2025-11-08 22:05:56 982

原创 PAB-Mamba-YoLo: VSSM 辅助 YOLO 用于断奶仔猪攻击行为检测

仔猪间的攻击行为被认为是一种有害的社会接触。监测具有强烈攻击行为的断奶仔猪对于生猪育种管理至关重要。本研究引入了一种新颖的混合模型 PAB-Mamba-YOLO,该模型集成了 Mamba 和 YOLO 的原理,用于高效视觉检测断奶仔猪的攻击行为,包括爬跨身体、鼻部撞击、咬尾和咬耳。在所提出的模型中,开发了一个新颖的 CSPVSS 模块,该模块将跨阶段部分(CSP)结构与视觉状态空间模型(VSSM)集成在一起。

2025-11-08 19:40:07 2709

原创 Mamba YOLO: 基于状态空间模型的目标检测简单基线

在深度学习技术快速发展的推动下,YOLO系列为实时目标检测器设立了新的基准。此外,基于Transformer的结构已成为该领域最强大的解决方案,极大地扩展了模型的感受野并实现了显著的性能提升。然而,这种改进是以牺牲计算量为代价的,因为自注意力机制的二次复杂度增加了模型的计算负担。为了解决这个问题,我们引入了一种简单而有效的基线方法,称为Mamba YOLO。我们的贡献如下:1)我们提出ODMamba骨干网络引入具有线性复杂度的状态空间模型(SSM)来解决自注意力的二次复杂度问题。

2025-11-07 20:30:00 2074

原创 开放获取 SuperMamba 小目标检测特征增强框架

从红外图像中准确、及时地检测包含几十个像素的小目标非常具有挑战性。与低空无人机拍摄的红外图像中的复杂背景相比,本文设计了一个框架来学习将目标与背景分离的强特征表示,但这通常会导致计算量大。在本文中,我们提出了一种用于无人机红外小目标检测的 SuperMamba(SMamba)框架,该框架执行非线性复杂数据的深度学习。我们的 SMamba 框架对多尺度目标执行高分辨率目标检测,同时兼顾检测精度和计算成本。

2025-11-07 18:04:05 1035

原创 【Block总结】MEEM,多尺度边缘增强模块|即插即用|ACM 2024

MDSAM成功解决了SAM应用于显著目标检测的核心挑战,通过创新的MEEM模块有效增强了边缘细节感知能力。MEEM采用多尺度边缘提取和增强机制,通过简单的特征减法原理实现了高效的边缘检测。实验表明,该方法不仅在SOD任务上达到最先进性能,还保持了SAM的强大泛化能力。MDSAM证明了基础模型通过合理适配可以高效应用于特定视觉任务,为视觉基础模型的下游迁移提供了新思路。未来工作可进一步优化MEEM的计算效率,扩展到更多分割场景。

2025-11-06 06:47:38 1329

原创 多尺度与细节增强的Segment Anything模型用于显著目标检测

显著目标检测(SOD)旨在识别和分割图像中最突出的目标。先进的SOD方法通常利用各种卷积神经网络(CNN)或Transformer进行深度特征提取。然而,这些方法在复杂情况下仍然表现不佳且泛化能力差。最近,Segment Anything Model(SAM)作为一种视觉基础模型被提出,具有强大的分割和泛化能力。尽管如此,SAM需要目标对象的精确提示,这在SOD中是不可用的。此外,SAM缺乏对多尺度和多级信息的利用,以及对细粒度细节的整合。

2025-11-06 06:40:49 1083

原创 MHAF-YOLO:用于精确目标检测的多分支异构辅助融合YOLO

由于路径聚合FPN(PAFPN)有效的多尺度特征融合能力,它已成为基于YOLO的检测器中广泛采用的组件。然而,PAFPN难以整合高级语义线索与低级空间细节,限制了其在现实世界应用中的性能,特别是在尺度变化显著的场景中。在本文中,我们提出了MHAF-YOLO,一种新颖的检测框架,其特点是一个多功能的颈部设计,称为多分支辅助FPN(MAFPN),它由两个关键模块组成:表层辅助融合(SAF)和高级辅助融合(AAF)。SAF通过融合浅层特征连接骨干网络和颈部,有效地以高保真度传递关键的低级空间信息。

2025-11-05 18:45:00 857 1

原创 RT-DETRv4:利用视觉基础模型轻松推进实时目标检测

实时目标检测通过精心设计的架构和优化策略取得了实质性进展。然而,通过轻量级网络设计追求高速推理通常会导致特征表示退化,这阻碍了性能的进一步提升和实际的端侧部署。在本文中,我们提出了一种成本效益高且高度适应的蒸馏框架,该框架利用快速发展的视觉基础模型(VFMs)的能力来增强轻量级目标检测器。鉴于VFM与资源受限检测器之间存在显著的架构和学习目标差异,实现稳定且任务对齐的语义传递具有挑战性。为了解决这个问题,一方面,我们引入了深度语义注入器(DSI)模块,以促进将VFM的高级表示集成到检测器的深层中。

2025-11-04 22:45:00 1987

原创 FeatEnHancer:在低光视觉下增强目标检测及其他任务的分层特征

在低光视觉下,为下游任务提取有用的视觉线索尤其具有挑战性。先前的工作要么通过将视觉质量与机器感知相关联,要么通过设计需要在大规模合成数据集上预训练的照明退化变换方法来创建增强表示。我们认为,针对下游任务损失优化增强的图像表示可以产生更具表现力的表示。因此,在这项工作中,我们提出了一个新模块FeatEnHancer,它使用由任务相关损失函数指导的多头注意力分层地组合多尺度特征,以创建合适的表示。

2025-11-04 18:15:00 834

原创 深入级联不稳定性:从 Lipschitz 连续性视角探讨图像恢复与目标检测的协同作用

为了提高检测器在恶劣条件(例如,雾霾和低光照)下的鲁棒性,通常将图像恢复作为预处理步骤,以增强图像质量供检测器使用。然而,恢复网络与检测网络之间的功能不匹配会引入不稳定性,并阻碍有效的集成——这一问题尚未得到充分探索。我们通过 Lipschitz 连续性的视角重新审视这一局限性,分析了恢复网络和检测网络在输入空间和参数空间中的功能差异。我们的分析表明,恢复网络执行平滑、连续的变换,而目标检测器则具有不连续的决策边界,对微小扰动高度敏感。这种不匹配在传统的级联框架中引入了不稳定性,其中来自恢复过程的即使不可察

2025-11-03 22:17:53 526

原创 【Block总结】MSC,多尺度稀疏交叉注意力网络在遥感场景分类中的应用|即插即用

根据论文介绍,MSCN模型在多个公开遥感场景分类数据集上进行了实验,并取得了优异的效果。有效性:实验结果验证了MSCN模型及其核心组件(MSC机制、GCE模块)能够显著提升遥感场景分类的准确率。抗干扰性:得益于稀疏注意力机制,模型对复杂背景和无关信息具有更好的鲁棒性。小目标友好:多尺度交叉融合策略有效缓解了小目标特征在深层网络中被丢失的问题,提升了像“小型飞机”这类目标的分类精度。总而言之,这篇论文针对遥感场景分类中的核心难题,提出了一个结构新颖、机制有效的解决方案。MSCN网络通过。

2025-11-03 21:23:41 1456

原创 TY-RIST:用于实时红外小目标检测的战术YOLO技巧

尽管红外小目标检测(IRSTD)对于国防和监视至关重要,但由于以下原因,它仍然是一项具有挑战性的任务:(1) 目标特征极少导致目标丢失,(2) 复杂环境中的虚警,(3) 低显著性导致的漏检,以及 (4) 高计算成本。为了解决这些问题,我们提出了 TY-RIST,一种优化的 YOLOv12n 架构,具有以下特点:(1) 具有细粒度感受野的步长感知骨干网络,(2) 高分辨率检测头,(3) 级联坐标注意力块,以及 (4) 一种分支修剪策略,可将计算成本降低高达 ~25.5%,同时略微提升性能并实现实时推理。

2025-10-31 06:52:41 877

原创 基于深度学习的遥感领域自适应方法:一项综合综述

—领域自适应是遥感中一项至关重要且日益重要的任务,旨在将知识从一个源域迁移到一个分布不同的目标域。它在各种现实世界应用中具有广泛的应用,包括遥感要素解译、生态环境监测以及城乡规划。然而,由于数据的差异,如地面采样距离的变化、来自不同传感器的成像模式、地理景观和环境条件,遥感中的领域自适应带来了重大挑战。近年来,深度学习已成为特征表示和跨领域知识迁移的强大工具,因此在遥感任务中得到了广泛应用。在本文中,我们对遥感中基于深度学习的领域自适应的重要进展进行了全面综述。我们首先介绍了预备知识,以阐明关键概念、数学符

2025-10-29 06:03:43 1605

原创 【Block总结】MRFA,大卷积感受野,提高小目标检测的利器|即插即用|ICCV 2025

该论文通过深入分析有效感受野(ERF)的分布特性,指出了当前大核ConvNets的局限性,并创新性地提出了感受野聚合器(RFA)这一模块。RFA通过分阶段、渐进式地融合多尺度上下文信息,在显著扩展ERF的同时,成功保持了其符合人类直觉的渐近高斯分布(AGD)。基于此构建的UniConvNet模型,无论是在轻量级还是超大规模场景下,都在多项视觉任务上实现了性能突破,为未来ConvNet的设计提供了一个强大且高效的通用范式。这项工作强调了感受野的质量(分布)与大小同等重要,为卷积网络的研究开辟了新的方向。

2025-10-28 09:42:49 1125

原创 UniConvNet:为任意规模的卷积神经网络在扩展有效感受野的同时保持渐近高斯分布

具有大有效感受野(ERF)的卷积神经网络(ConvNets)仍处于早期阶段,尽管其展现出令人瞩目的有效性,但受限于高昂的参数量和计算量(FLOPs)成本,并且会破坏ERF的渐近高斯分布(AGD)。本文提出了一种替代范式:与其单纯地使用极大的ERF,不如通过合理组合较小的卷积核(如7×79×911×11)来扩展ERF,同时保持其AGD,这种方法更为有效和高效。

2025-10-28 06:55:17 716

原创 面向具身人工智能的二维世界模型综合综述

具身人工智能(Embodied AI)要求智能体能够感知、行动并预测其行为将如何重塑未来的环境状态。世界模型作为一种内部模拟器,能够捕捉环境动态,从而支持感知、预测和决策的前向与反事实推演。本综述为具身人工智能中的世界模型提出了一个统一的框架。具体而言,我们形式化了问题设定和学习目标,并提出了一个包含三个轴的分类法:(1)

2025-10-27 21:45:00 1608

原创 MAMBA-3:利用状态空间原理改进的序列建模

https://openreview.net/pdf?id=HwCvaJOiCj近期对大语言模型(LLM)推理时计算资源的扩展,使得只有那些具备强大能力、能以高效推理方式生成高质量输出的模型才具有实际部署价值。尽管当前基于Transformer的模型是行业标准,但其二次方的计算复杂度和线性增长的内存瓶颈,推动了次二次方模型的发展,这类模型具有线性扩展的计算量和恒定的内存需求。然而,许多近期的线性风格模型在某些能力上有所欠缺或质量落后,甚至其线性时间推理在硬件上也并非高效。本着以推理为先的理念,我们引入了三项

2025-10-27 20:30:00 1410

原创 自监督 YOLO:利用对比学习实现标签高效的目标检测

YOLO 系列等单阶段目标检测器在实时视觉应用中实现了最先进的性能,但其训练仍严重依赖大规模标注数据集。本文系统研究了对比自监督学习(Self-Supervised Learning, SSL)作为一种减少该依赖性的手段,通过在未标注图像上使用 SimCLR 框架对 YOLOv5 和 YOLOv8 的骨干网络进行预训练。我们提出了一种简单而有效的流程:将 YOLO 的卷积骨干网络作为编码器,采用全局池化和投影头,并利用 COCO 未标注数据集(12 万张图像)的增强视图优化对比损失。

2025-10-27 19:15:00 1766 1

原创 SCSegamba:用于结构裂缝分割的轻量级结构感知视觉Mamba网络

在各种场景下对结构裂缝进行像素级分割仍然是一项重大挑战。现有方法在有效建模裂缝形态和纹理方面面临困难,并且难以在分割质量与低计算资源消耗之间取得平衡。为克服这些局限性,我们提出了一种轻量级的结构感知视觉Mamba网络(SCSegamba),该网络能够以极低的计算成本,利用裂缝像素的形态信息和纹理线索生成高质量的像素级分割图。具体而言,我们开发了一种结构感知视觉状态空间模块(SAVSS),该模块结合了轻量级门控瓶颈卷积(GBC)和结构感知扫描策略(SASS)。

2025-10-26 22:39:04 916

原创 【Block总结】GBC,轻量级门控瓶颈卷积|CVPR 2025|即插即用

SCSegamba的整体架构包含两个主要组件:用于提取裂缝形状和纹理特征的结构感知视觉状态空间模块(SAVSS),以及用于高效特征处理的多尺度特征分割头(MFS)。SCSegamba作为一种轻量级结构感知视觉Mamba网络,通过结合SAVSS和MFS,以较低的参数数量增强了裂缝形状和纹理感知能力。配备GBC和SASS扫描的SAVSS能够捕捉各种结构中不规则的裂缝纹理。在四个数据集上的实验证明了SCSegamba的卓越性能,特别是在复杂、嘈杂的场景中。

2025-10-26 22:22:08 851

原创 基于多焦点高斯邻域注意力机制与大规模基准的视频人群定位

视频人群定位是一项关键但极具挑战性的任务,其目标是估计给定拥挤视频中人头的精确位置。为了对人类移动的时空依赖性进行建模,我们提出了一种多焦点高斯邻域注意力机制(GNA),该机制能够有效地利用长距离对应关系,同时保持输入视频的空间拓扑结构。特别是,我们配备的多焦点机制使GNA能够很好地捕捉人头的尺度变化。基于多焦点GNA,我们开发了一个统一的神经网络,称为GNANet,它通过场景建模模块和上下文交叉注意力模块,充分聚合时空信息,从而在视频片段中精确定位人头中心。此外,为了促进该领域的未来研究,我们引入了一个名

2025-10-25 18:02:46 1088

原创 FMC-DETR:面向航拍视角目标检测的频域解耦多域协同方法

航拍视角目标检测是自然资源监测、交通管理和无人机搜救等现实应用中的一项关键技术。在高分辨率航拍图像中检测微小目标一直是一个长期存在的挑战,原因在于其有限的视觉线索以及在复杂场景中建模全局上下文的困难。现有方法常常受到上下文融合延迟和非线性建模不足的阻碍,无法有效利用全局信息来优化浅层特征,从而遭遇性能瓶颈。为了解决这些挑战,我们提出了,一种用于航拍视角目标检测的新型框架,其核心是频域解耦融合。首先,我们引入了。

2025-10-25 17:07:50 1017

原创 MFF-YOLOv8:基于多尺度特征融合的无人机遥感图像小目标检测

在无人机拍摄场景中,目标检测是一项热门任务,其图像包含大量小目标,但现有网络常出现漏检和误检问题。为解决此问题,我们提出了一种基于多尺度特征融合的YOLO算法——MFF-YOLOv8,用于无人机航拍图像中的小目标检测。首先,我们设计了一个高分辨率特征融合金字塔(HFFP),该模块利用包含丰富小目标信息的高分辨率特征图来引导特征融合模块,对特征图进行加权融合,从而增强网络对小目标的表征能力。同时,采用了一个重建特征选择(RFS)模块,以去除高分辨率特征图产生的大量噪声。

2025-10-24 10:41:24 1255

原创 MFFCI-YOLOv8:一种基于多尺度特征融合与上下文信息的轻量级遥感目标检测网络

本文对YOLOv8s进行了改进和优化,引入了一种更好的网络框架MFFCI-YOLOv8,用于图2所示的RSOD。首先,输入图像在骨干网络中进行特征提取。在这方面,我们提出了更轻、更快的LCA模块,以减少通道冗余,从而减少参数和计算复杂度。此外,为了提高特征提取能力,引入了无参数的SimAM注意力方法。随后,我们引入了GSPPF模块,以改善尺度感知和上下文感知能力,从而增强整体特征表示。MFLNeck模块能够实现更有效的多尺度特征融合,并辅以融合LCA模块,旨在准确检测更小的目标。

2025-10-24 05:43:38 622

原创 基于 HRFPN 与 EfficientVMamba 的高精度无人机小目标检测

HRMamba-YOLO:基于高分辨率特征金字塔与Mamba的小目标检测算法 本研究提出HRMamba-YOLO算法,针对无人机图像小目标检测难题。该算法融合HRNet的高分辨率特征保持能力、Mamba的长程建模优势与YOLO的高效检测框架,创新性引入: 双空间金字塔池化模块增强多尺度特征提取 高效Mamba模块(EMM)和融合Mamba模块(FMM)强化上下文建模 高分辨率特征金字塔网络(HRFPN)优化跨尺度特征融合 在VisDroneDET数据集上,mAP较YOLOv8-m提升4.4%,Dota1.5

2025-10-23 07:00:03 1613

原创 Yolo分割数据集错误数据删除

检查yolo系列的分割数据,如果怀疑数据集有问题,可以使用此代码,dry_run 先设置为True,执行后会打印有问题的数据,观察打印的数据符合预期,然后,再改为False,删除异常数据。

2025-10-22 23:30:00 260

MobileViG-基于图的稀疏注意移动视觉应用.pdf

论文翻译

2023-07-25

Vim实战:使用Vim实现图像分类任务

Vim作为一种高效的视觉模型,具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。 本文使用Vim模型实现图像分类任务,模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token(这个方法的名字比较长。。。。。),在植物幼苗分类任务ACC达到了93%+。 文章链接: https://wanghao.blog.youkuaiyun.com/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

Hiera-MAE-Demo.zip

https://wanghao.blog.youkuaiyun.com/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法,通过引入视觉状态空间模型(SSM)以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体,结合选择性扫描和有效跳跃采样,同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果,并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用,并指出现有轻量级模型在保持全局表示能力方面的挑战。 本文使用EcientVMamba模型实现图像分类任务,模型选择最小的EcientVMamba_T,在植物幼苗分类任务ACC达到了93%+,达到了ViM的水平。。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

TransNext-Demo.zip

2024-03-16

YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip

YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战:使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。具体来说,MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率,分别使用了5.2M和181M参数,优于ParC-Net-S和ConvNeXt-L,同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。 文章链接:https://wanghao.blog.youkuaiyun.com/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用,利用构建通道或空间位置之间的依赖关系的能力,有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制,并提出了一种新的计算注意力权重的方法——三元组注意力,通过一个三分支结构捕捉跨维度交互。对于输入张量,三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系,并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效,可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中,如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测,证明了该方法的有效性。此外,通过可视化检查GradCAM和GradCAM++结果,提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

FlashInternImage实战:使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进,无需其他修改。DCNv4在速度和效率上的优势,结合其在各种视觉任务中的稳健性能,使其成为未来视觉模型的潜在基础构建块。 文章链接: https://wanghao.blog.youkuaiyun.com/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战:使用UniRepLKNet实现图像分类任务

大核卷积神经网络(ConvNets)近年来受到广泛关注,但仍存在两个关键问题需要进一步研究。首先,目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则,而大核ConvNets的架构设计仍未得到充分解决。其次,尽管Transformer已在多种模态中占据主导地位,但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战:使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中,TransXNet-T相比Swin-T在top-1准确率上提高了0.3%,同时计算成本更低。此外,TransXNet-S和TransXNet-B展示了出色的模型扩展性,分别实现了83.8%和84.6%的top-1准确率,且计算成本合理。此外,我们的网络架构在各种密集预测任务中展现出了强大的泛化能力,优于其他先进的网络结构,且计算成本更低。总之,D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构,为计算机视觉领域提供了新的解决方案。 这篇文章使用TransXNet完成植物分类任务,模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战:使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。 这些组件虽然带来了有效的准确性和吸引人的FLOP计数,但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。 通过使用强大的视觉预训练任务(MAE)进行预训练,可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西,同时不会丢失准确性。 在此过程中,作者创建了Hiera,这是一种极其简单的层次视觉变换器,它比以前的模型更准确,同时在推理和训练过程中都明显更快。 在各种任务上评估了Hiera对于图像和视频识别的表现。 代码和模型可以在https://github.com/facebookresearch/hiera上获得。 这篇文章使用Hiera完成植物分类任务,模型采用hiera_tiny_224向大家展示如何使用Hiera。 原文链接:https://wanghao.blog.youkuaiyun.com/article/details/134642935

2023-12-07

RevCol实战:使用RevCol实现图像分类任务

可逆柱状结构(RevCol)是一种网络结构,它受到GLOM(Global Columnar Memory)的启发。RevCol由N个子网络(或称为列)组成,每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题,通过在前面的列中添加额外的监督,以保持特征和输入图像之间的互信息。此外,RevCol可以逐渐解耦语义和低级信息,从而提取和利用任务相关信息来进一步提高性能。在实现上,对于中间监督,采用了加权求和的方式将两个损失合并,对于所有变体的RevCol,通过实验确定将监督头添加到特定的列中。 这篇文章使用RevCol完成植物分类任务,模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC,

2023-11-25

Sgformer实战:使用Sgformer实现图像分类任务

Sgformer实战:使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用:探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用:探索schedule的无尽可能性

2023-08-30

FastVIT实战:使用FastVIT实现图像分类

第一步 执行makedata.py 创建训练集和验证集 第二步 执行train.py训练 第三步 执行export_model.py 导出模型 第四步 执行test.py 测试 非常简单,适合初学者

2023-08-21

DERT:论文详细翻译

DERT:论文详细翻译

2023-08-15

VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型

在BN层网络中加入稀疏因子,训练使得BN层稀疏化,对稀疏训练的后的模型中所有BN层权重进行统计排序,获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重,制作各层mask(权重>thres值为1,权重<thres值为0)。剪枝操作,根据各层的mask构建新模型结构(各层保留的通道数),获取BN层权重mask非零值的索引,非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型,进行fine-tune。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战:使用EMO实现图像分类任务

EMO实战:使用EMO实现图像分类任务

2023-07-31

OverLoCK实战:使用OverLoCK实现图像分类任务

OverLoCK是一种全新的卷积神经网络(ConvNet)架构,旨在模仿人类视觉系统中的“纵观全局-聚焦细节”(Overview-first-Look-Closely-next)双阶段认知机制。该架构通过引入自上而下的注意机制,结合动态卷积技术,显著提升了模型在图像分类、目标检测和语义分割等视觉任务中的性能。其核心设计包括深层分解策略(Deep-stage Decomposition Strategy, DDS)和上下文混合动态卷积(Context-Mixing Dynamic Convolution, ContMix),以有效建模长距离依赖关系,同时保留局部归纳偏差。实验表明,OverLoCK在多个基准任务中超越了现有的ConvNet和Transformer架构,同时显著降低了计算成本[3][4][9]。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/147011934

2025-05-19

SparX实战:使用SparX实现图像分类任务

SparX是一种新提出的稀疏跨层连接机制,旨在提升视觉Mamba和Transformer网络的性能。该论文由香港大学的俞益洲教授及其研究团队撰写,并将在AAAI 2025会议上发表。论文的主要目标是解决现有视觉模型在跨层特征聚合方面的不足,尤其是在计算复杂度较高的Mamba模型中[5][6][7]。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/145376426

2025-01-29

DFFormer实战:使用DFFormer实现图像分类

## 论文信息 **标题**: FFT-based Dynamic Token Mixer for Vision **论文链接**: https://arxiv.org/pdf/2303.03932 ## 创新点 本论文提出了一种新的令牌混合器,称为**动态滤波器(Dynamic Filter)**,旨在解决多头自注意力(MHSA)模型在处理高分辨率图像时的计算复杂度问题。传统的MHSA模型在输入特征图的像素数量增加时,其计算复杂度呈二次增长,导致处理速度缓慢。通过引入基于快速傅里叶变换(FFT)的动态滤波器,论文展示了在保持全局操作能力的同时,显著降低计算复杂度的可能性。 链接:https://wanghao.blog.youkuaiyun.com/article/details/145368717?spm=1001.2014.3001.5502

2025-01-27

CrossFormer实战:使用CrossFormer实现图像分类任务

CrossFormer是一种新型的视觉Transformer架构,旨在通过引入跨尺度注意力机制来提升计算机视觉任务的性能。该模型特别关注不同尺度特征之间的交互,解决了现有视觉Transformer在处理多尺度特征时的不足。 链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/145055796?spm=1001.2014.3001.5501

2025-01-12

DilateFormer实战:使用DilateFormer实现图像分类任务

## 创新点 - **多尺度扩张注意力(MSDA)**:通过分析ViTs中全局注意力的斑块交互,发现注意力矩阵在浅层具有局部性和稀疏性。基于此,提出了MSDA,通过在周围稀疏选择的斑块中进行自注意力计算,同时捕获多尺度语义依赖。 - **滑动窗口扩张注意力(SWDA)**:作为MSDA的一部分,SWDA在局部邻域内执行自注意力,进一步利用感受野内的信息。 - **金字塔架构**:采用金字塔架构来发展DilateFormer模型,在浅层阶段堆叠MSDA以捕获低层信息,在深层阶段使用全局多头自注意力以建模高层信息。 本文使用DilateFormer模型实现图像分类任务,模型选择dilateformer_tiny,在植物幼苗分类任务ACC达到了89%+。

2024-12-26

Yolo11s的Objects365预训练权重

Yolo11s的Objects365预训练权重,训练了10个epoch,可以用来做预训练模型。

2024-12-06

VOLO实战:使用VOLO实现图像分类任务

本文介绍了一种新颖的视觉前景器(VOLO)主干网络,通过提出前景注意力机制和构建两个阶段的架构,实现了在ImageNet分类任务上的卓越性能。同时,VOLO在语义分割任务上也表现出了出色的性能。VOLO的提出为视觉识别领域带来了新的突破和进展。 本文使用VOLO模型实现图像分类任务,模型选择volo_d1,在植物幼苗分类任务ACC达到了85%+。

2024-11-25

DeBiFormer实战:使用DeBiFormer实现图像分类任务

本文介绍的DeBiFormer是一种专为图像分类和密集预测任务设计的新型分层视觉Transformer。通过提出可变形双级路由注意力(DBRA),优化了查询-键-值交互,自适应选择语义相关区域,实现了更高效和有意义的注意力。实验结果表明,DeBiFormer在多个计算机视觉任务上均表现出色,为设计灵活且语义感知的注意力机制提供了见解。 本文使用DeBiFormer模型实现图像分类任务,模型选择debi_tiny,在植物幼苗分类任务ACC达到了82%+。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/142706712

2024-11-07

NextVit-Demo.zip

NextVit-Demo.zip

2024-10-04

EfficientFormer实战:使用EfficientFormerV2实现图像分类任务

EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势,通过一系列高效的设计改进和搜索方法,实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/142367223

2024-09-19

GCViT实战:使用GCViT实现图像分类任务

GC ViT(全局上下文视觉转换器)是一种创新的深度学习架构,旨在提升计算机视觉任务中的参数和计算效率。它通过将全局上下文自注意力模块与标准的局部自注意力相结合,有效地建模长程和短程空间交互,同时避免了传统方法中的昂贵操作,如计算注意力掩码或移动局部窗口。GC ViT解决了Vision Transformer(ViT)中归纳偏差缺失的问题,并通过引入改进的融合倒置残差块来增强性能。在多个视觉任务(如图像分类、目标检测和语义分割)中,GC ViT均取得了最先进的结果。 原文链接:https://blog.youkuaiyun.com/m0_47867638/article/details/141654892

2024-09-02

CAS-ViT实战:使用CAS-ViT实现图像分类任务

CAS-ViT(Convolutional Additive Self-attention Vision Transformer)通过一系列创新,成功实现了计算与效率的平衡。其核心在于提出了一种新颖的加性相似度函数和卷积加性标记混合器(Convolutional Additive Token Mixer, CATM),这一设计显著降低了计算开销。 原文链接:https://blog.youkuaiyun.com/m0_47867638/article/details/141404169

2024-08-22

GroupMamba实战:使用GroupMamba实现图像分类任务

状态空间模型(SSM)的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。GroupMamba解决了将基于SSM的模型扩展到计算机视觉领域的挑战,特别是大型模型尺寸的不稳定性和低效性。GroupMamba在ImageNet-1K的图像分类、MS-COCO的目标检测和实例分割以及ADE2OK的语义分割方面,相比现有方法取得了更优的性能。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/140775861

2024-07-31

EfficientMod实战:使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制(EfficientMod)”的新型设计,旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制,该机制通过卷积上下文建模和特征投影层处理输入,并通过逐元素乘法和多层感知机(MLP)块融合特征。为了进一步提升效率,作者设计了EfficientMod块,作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力,同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比,EfficientMod的计算复杂度与图像大小呈线性关系,而不是与标记数量呈立方关系,这使得它在处理大规模图像时更加高效。此外,与现有的高效卷积网络如FocalNet和VAN相比,EfficientMod块更为简单,但保留了它们的主要优点,如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战:使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴,通过一系列创新设计,旨在提升模型性能并优化其计算效率,提出了RDNet模型。该模型的主要特点和改进点: ### 1. 强调并优化连接操作(Concatenation) 论文首先强调了DenseNet中连接操作(Concatenation)的重要性,并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接(Additive Shortcut)。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构,增加自研的注意力机制,取得了不错的得分。如果大家想发顶会,或者比较好的期刊,可以优先考虑! 包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码,包含代码和数据集!打开就可以使用! 搜集了多个数据集。

2024-06-24

StarNet实战:使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。 星操作在自然语言处理(NLP)和计算机视觉(CV)等多个领域中都得到了成功应用。例如,在自然语言处理中,Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作;在计算机视觉中,FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务

Vision-LSTM(ViL)架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比,xLSTM引入了指数门控机制,使得模型能够更好地处理长序列数据。同时,xLSTM采用可并行化的矩阵内存结构,提高了模型的计算效率。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战:使用MobileNetV4实现图像分类任务

MobileNetV4,作为新一代移动设备神经网络架构,凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块,实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法,创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性,而Mobile MQA块相较于传统多头注意力,在移动加速器上实现了显著的推理加速。 原文链接:https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除