- 博客(1738)
- 资源 (166)
- 收藏
- 关注
原创 回归基础:让去噪生成模型真正去噪
当今的去噪扩散模型并不以经典意义上的"去噪"方式进行工作,也就是说,它们并不直接预测干净的图像。相反,神经网络预测的是噪声或含噪量。在本文中,我们认为预测干净数据和预测含噪量在本质上是不同的。根据流形假设,自然数据应位于低维流形上,而含噪量则不然。基于这一假设,我们提倡使用直接预测干净数据的模型,这使得明显容量不足的网络仍能在非常高维的空间中有效运行。我们证明,简单的、基于大图像块的像素Transformer可以成为强大的生成模型:无需分词器、无需预训练、无需额外损失。
2025-11-21 09:31:50
710
原创 【Block总结】HLKConv卷积,用于红外小目标检测的动态局部上下文表示学习|即插即用
【代码】【Block总结】HLKConv卷积,用于红外小目标检测的动态局部上下文表示学习|即插即用。
2025-11-20 07:05:45
207
原创 用于红外小目标检测的动态局部上下文表示学习
如图3所示,所提出方法的整体架构遵循近年来广泛采用的U-Net结构[56]–[58]。LCRNet由堆叠的C2FBlock组成,C2FBlock的核心组件是提出的DLC-Attention和HLKConv。模型以尺寸为1×H×W1×H×W的图像作为输入。首先通过3×33\times33×3卷积(InitConv)处理,将特征图的维度增加到C1C_{1}C1,然后经过一系列C2FBlock在不同分辨率下进行处理。最后,一个3×33\times33×3。
2025-11-19 22:30:13
458
原创 T-Rex-Omni:在通用目标检测中集成负向视觉提示
论文链接:https://arxiv.org/pdf/2511.08997v1目标检测方法近年来已从闭集范式发展到开集范式。然而,当前的开集目标检测器仍然受限于其仅依赖基于给定提示(如文本描述或视觉示例)的正向指示器。这种仅使用正向提示的范式在面对视觉相似但语义不同的干扰物时持续表现出脆弱性。我们提出了 T-Rex-Omni,一个通过引入负向视觉提示来否定困难负例干扰物的新颖框架。具体来说,我们首先引入了一个统一的视觉提示编码器,用于联合处理正向和负向视觉提示。
2025-11-18 21:00:00
620
原创 Cambrian-S:迈向视频中的空间超感知
我们认为,真正多模态智能的进展需要从反应式、任务驱动的系统和暴力长上下文处理转向一个更广泛的超感知范式。我们将空间超感知定义为超越纯语言理解的四个阶段:语义感知(命名所见之物)、流事件认知(在连续体验中维持记忆)、隐式3D空间认知(推断像素背后的世界)以及预测性世界建模(创建过滤和组织信息的内部模型)。当前的基准测试主要只检验早期阶段,对空间认知的覆盖范围狭窄,并且很少以需要真正世界建模的方式来挑战模型。
2025-11-17 09:06:20
1224
原创 undefined symbol: _ZN3c104cuda9SetDeviceEab
【代码】undefined symbol: _ZN3c104cuda9SetDeviceEab。
2025-11-14 23:30:00
290
原创 VSSD:具有非因果状态空间对偶性的视觉Mamba模型
视觉变换器显著推动了计算机视觉领域的发展,提供了强大的建模能力和全局感受野。然而,其高计算需求限制了其在处理长序列时的应用。为了解决这个问题,状态空间模型(SSMs)在视觉任务中崭露头角,因为它们提供了线性计算复杂度。最近,Mamba2中引入了状态空间对偶性(SSD),这是SSMs的一种改进变体,旨在提升模型性能和效率。然而,SSD/SSMs固有的因果性质限制了它们在非因果视觉任务中的应用。为了解决这一限制,我们引入了视觉状态空间对偶性(VSSD)模型,它具有SSD的非因果形式。
2025-11-14 20:00:00
1946
原创 人群计数的课程学习——是否值得:
深度学习技术的最新进展在多个计算机视觉问题上取得了显著性能。最近引入了一种名为课程学习(CL)的直观技术用于训练深度学习模型。令人惊讶的是,课程学习在某些任务中取得了显著改进的结果,但在其他任务中仅带来边际改进或无改进。因此,关于是否将其作为训练监督学习模型的标准方法仍存在争议。在这项工作中,我们研究了课程学习在使用密度估计方法的人群计数中的影响。我们通过使用八种不同的人群模型和六种不同的 CL 设置进行了 112 次实验来执行详细调查。我们的实验表明,课程学习提高了模型的学习性能并缩短了收敛时间。
2025-11-13 22:00:00
767
原创 CrowdDiff: 使用扩散模型进行多假设人群密度估计
人群计数是人群分析中的一个基本问题,通常通过估计人群密度图并对密度值求和来完成。然而,这种方法存在背景噪声积累和由于使用宽高斯核创建真实密度图而导致的密度损失问题。通过缩小高斯核可以克服这个问题。然而,当使用宽高斯核的真实密度图进行训练时,现有方法表现不佳。为了解决这个限制,我们提出使用条件扩散模型来预测密度图,因为扩散模型在生成过程中对训练数据具有高保真度。为此,我们提出了CrowdDiff,它通过反向扩散过程生成人群密度图。
2025-11-13 22:00:00
964
原创 密度估计与人群计数的深度学习方法综述
准确估计单张图像中的物体数量是一项具有挑战性但有意义的任务,并已应用于许多应用中,例如城市规划与公共安全。在各种物体计数任务中,人群计数由于其对社会安全与发展的特定意义而尤为突出。幸运的是,人群计数技术的发展可以推广到其他相关领域,例如车辆计数和环境调查,如果不考虑其特性的话。因此,许多研究人员致力于人群计数,并涌现出许多优秀的工作,极大地推动了人群计数的发展。然而,我们需要考虑的一个问题是,我们距离解决计数问题还有多远?受限于时间和精力成本,我们无法分析所有算法。
2025-11-13 13:37:00
1923
原创 SMamba: 基于稀疏Mamba的事件相机目标检测
基于Transformer的方法在事件相机目标检测中取得了显著的性能,这得益于其全局建模能力。然而,这些方法忽视了非事件区域和噪声区域的影响,并统一处理这些区域,导致计算开销很高。为了减轻计算成本,一些研究人员提出了基于窗口注意力的稀疏化策略来丢弃不重要的区域,但这牺牲了全局建模能力,导致次优性能。为了在准确性和效率之间取得更好的权衡,我们提出了稀疏Mamba(SMamba),它通过自适应稀疏化减少计算量,同时保持全局建模能力。
2025-11-11 19:15:00
1208
原创 SL-YOLO:一种更强更轻量的无人机目标检测模型
在复杂场景中检测小目标(如无人机拍摄的图像)是一项艰巨的挑战,因为难以捕捉小目标的复杂特征。虽然YOLO系列在大目标检测方面取得了巨大成功,但在面对小目标时,其性能却不尽如人意。因此,本文提出了一种革命性模型SL-YOLO(Stronger and Lighter YOLO,更强更轻量的YOLO),旨在打破小目标检测的瓶颈。
2025-11-11 07:08:02
1159
原创 LARS:基于自适应通道注意力与大核自适应的遥感小目标检测网络
整体模型结构分为三个部分:骨干网络、颈部网络和头部网络,如图1所示。在骨干网络部分,使用ACA块来捕获图像不同通道中包含的特定语义特征,如颜色和纹理。该块内设置的自适应加权使模型能够更多地关注局部信息,引导模型关注小目标区域。然后,LKA块分析该区域与周围感受野的局部和全局相关性,准确提取输入图像的高级特征表示,用于后续的目标检测任务。颈部部分使用特征金字塔网络(FPN)架构进行特征融合和上采样,以进一步处理骨干网络提取的特征,增强模型对不同尺度目标的敏感性。
2025-11-09 08:52:07
1114
原创 SOAR:利用状态空间模型和可编程梯度进行航空影像中小目标物体检测的进展
航空影像中的小目标检测在计算机视觉领域面临着重大挑战,这是由于小尺寸目标固有的数据量极少,以及它们容易被较大目标和背景噪声遮挡。传统的基于Transformer的模型方法常常受到缺乏专门数据库的限制,这对其处理不同朝向和尺度目标的性能产生不利影响。这凸显了对更适应性强、轻量级模型的需求。对此,本文介绍了两种创新方法,显著增强了对航空小目标的检测和分割能力。
2025-11-08 22:05:56
982
原创 PAB-Mamba-YoLo: VSSM 辅助 YOLO 用于断奶仔猪攻击行为检测
仔猪间的攻击行为被认为是一种有害的社会接触。监测具有强烈攻击行为的断奶仔猪对于生猪育种管理至关重要。本研究引入了一种新颖的混合模型 PAB-Mamba-YOLO,该模型集成了 Mamba 和 YOLO 的原理,用于高效视觉检测断奶仔猪的攻击行为,包括爬跨身体、鼻部撞击、咬尾和咬耳。在所提出的模型中,开发了一个新颖的 CSPVSS 模块,该模块将跨阶段部分(CSP)结构与视觉状态空间模型(VSSM)集成在一起。
2025-11-08 19:40:07
2709
原创 Mamba YOLO: 基于状态空间模型的目标检测简单基线
在深度学习技术快速发展的推动下,YOLO系列为实时目标检测器设立了新的基准。此外,基于Transformer的结构已成为该领域最强大的解决方案,极大地扩展了模型的感受野并实现了显著的性能提升。然而,这种改进是以牺牲计算量为代价的,因为自注意力机制的二次复杂度增加了模型的计算负担。为了解决这个问题,我们引入了一种简单而有效的基线方法,称为Mamba YOLO。我们的贡献如下:1)我们提出ODMamba骨干网络引入具有线性复杂度的状态空间模型(SSM)来解决自注意力的二次复杂度问题。
2025-11-07 20:30:00
2074
原创 开放获取 SuperMamba 小目标检测特征增强框架
从红外图像中准确、及时地检测包含几十个像素的小目标非常具有挑战性。与低空无人机拍摄的红外图像中的复杂背景相比,本文设计了一个框架来学习将目标与背景分离的强特征表示,但这通常会导致计算量大。在本文中,我们提出了一种用于无人机红外小目标检测的 SuperMamba(SMamba)框架,该框架执行非线性复杂数据的深度学习。我们的 SMamba 框架对多尺度目标执行高分辨率目标检测,同时兼顾检测精度和计算成本。
2025-11-07 18:04:05
1035
原创 【Block总结】MEEM,多尺度边缘增强模块|即插即用|ACM 2024
MDSAM成功解决了SAM应用于显著目标检测的核心挑战,通过创新的MEEM模块有效增强了边缘细节感知能力。MEEM采用多尺度边缘提取和增强机制,通过简单的特征减法原理实现了高效的边缘检测。实验表明,该方法不仅在SOD任务上达到最先进性能,还保持了SAM的强大泛化能力。MDSAM证明了基础模型通过合理适配可以高效应用于特定视觉任务,为视觉基础模型的下游迁移提供了新思路。未来工作可进一步优化MEEM的计算效率,扩展到更多分割场景。
2025-11-06 06:47:38
1329
原创 多尺度与细节增强的Segment Anything模型用于显著目标检测
显著目标检测(SOD)旨在识别和分割图像中最突出的目标。先进的SOD方法通常利用各种卷积神经网络(CNN)或Transformer进行深度特征提取。然而,这些方法在复杂情况下仍然表现不佳且泛化能力差。最近,Segment Anything Model(SAM)作为一种视觉基础模型被提出,具有强大的分割和泛化能力。尽管如此,SAM需要目标对象的精确提示,这在SOD中是不可用的。此外,SAM缺乏对多尺度和多级信息的利用,以及对细粒度细节的整合。
2025-11-06 06:40:49
1083
原创 MHAF-YOLO:用于精确目标检测的多分支异构辅助融合YOLO
由于路径聚合FPN(PAFPN)有效的多尺度特征融合能力,它已成为基于YOLO的检测器中广泛采用的组件。然而,PAFPN难以整合高级语义线索与低级空间细节,限制了其在现实世界应用中的性能,特别是在尺度变化显著的场景中。在本文中,我们提出了MHAF-YOLO,一种新颖的检测框架,其特点是一个多功能的颈部设计,称为多分支辅助FPN(MAFPN),它由两个关键模块组成:表层辅助融合(SAF)和高级辅助融合(AAF)。SAF通过融合浅层特征连接骨干网络和颈部,有效地以高保真度传递关键的低级空间信息。
2025-11-05 18:45:00
857
1
原创 RT-DETRv4:利用视觉基础模型轻松推进实时目标检测
实时目标检测通过精心设计的架构和优化策略取得了实质性进展。然而,通过轻量级网络设计追求高速推理通常会导致特征表示退化,这阻碍了性能的进一步提升和实际的端侧部署。在本文中,我们提出了一种成本效益高且高度适应的蒸馏框架,该框架利用快速发展的视觉基础模型(VFMs)的能力来增强轻量级目标检测器。鉴于VFM与资源受限检测器之间存在显著的架构和学习目标差异,实现稳定且任务对齐的语义传递具有挑战性。为了解决这个问题,一方面,我们引入了深度语义注入器(DSI)模块,以促进将VFM的高级表示集成到检测器的深层中。
2025-11-04 22:45:00
1987
原创 FeatEnHancer:在低光视觉下增强目标检测及其他任务的分层特征
在低光视觉下,为下游任务提取有用的视觉线索尤其具有挑战性。先前的工作要么通过将视觉质量与机器感知相关联,要么通过设计需要在大规模合成数据集上预训练的照明退化变换方法来创建增强表示。我们认为,针对下游任务损失优化增强的图像表示可以产生更具表现力的表示。因此,在这项工作中,我们提出了一个新模块FeatEnHancer,它使用由任务相关损失函数指导的多头注意力分层地组合多尺度特征,以创建合适的表示。
2025-11-04 18:15:00
834
原创 深入级联不稳定性:从 Lipschitz 连续性视角探讨图像恢复与目标检测的协同作用
为了提高检测器在恶劣条件(例如,雾霾和低光照)下的鲁棒性,通常将图像恢复作为预处理步骤,以增强图像质量供检测器使用。然而,恢复网络与检测网络之间的功能不匹配会引入不稳定性,并阻碍有效的集成——这一问题尚未得到充分探索。我们通过 Lipschitz 连续性的视角重新审视这一局限性,分析了恢复网络和检测网络在输入空间和参数空间中的功能差异。我们的分析表明,恢复网络执行平滑、连续的变换,而目标检测器则具有不连续的决策边界,对微小扰动高度敏感。这种不匹配在传统的级联框架中引入了不稳定性,其中来自恢复过程的即使不可察
2025-11-03 22:17:53
526
原创 【Block总结】MSC,多尺度稀疏交叉注意力网络在遥感场景分类中的应用|即插即用
根据论文介绍,MSCN模型在多个公开遥感场景分类数据集上进行了实验,并取得了优异的效果。有效性:实验结果验证了MSCN模型及其核心组件(MSC机制、GCE模块)能够显著提升遥感场景分类的准确率。抗干扰性:得益于稀疏注意力机制,模型对复杂背景和无关信息具有更好的鲁棒性。小目标友好:多尺度交叉融合策略有效缓解了小目标特征在深层网络中被丢失的问题,提升了像“小型飞机”这类目标的分类精度。总而言之,这篇论文针对遥感场景分类中的核心难题,提出了一个结构新颖、机制有效的解决方案。MSCN网络通过。
2025-11-03 21:23:41
1456
原创 TY-RIST:用于实时红外小目标检测的战术YOLO技巧
尽管红外小目标检测(IRSTD)对于国防和监视至关重要,但由于以下原因,它仍然是一项具有挑战性的任务:(1) 目标特征极少导致目标丢失,(2) 复杂环境中的虚警,(3) 低显著性导致的漏检,以及 (4) 高计算成本。为了解决这些问题,我们提出了 TY-RIST,一种优化的 YOLOv12n 架构,具有以下特点:(1) 具有细粒度感受野的步长感知骨干网络,(2) 高分辨率检测头,(3) 级联坐标注意力块,以及 (4) 一种分支修剪策略,可将计算成本降低高达 ~25.5%,同时略微提升性能并实现实时推理。
2025-10-31 06:52:41
877
原创 基于深度学习的遥感领域自适应方法:一项综合综述
—领域自适应是遥感中一项至关重要且日益重要的任务,旨在将知识从一个源域迁移到一个分布不同的目标域。它在各种现实世界应用中具有广泛的应用,包括遥感要素解译、生态环境监测以及城乡规划。然而,由于数据的差异,如地面采样距离的变化、来自不同传感器的成像模式、地理景观和环境条件,遥感中的领域自适应带来了重大挑战。近年来,深度学习已成为特征表示和跨领域知识迁移的强大工具,因此在遥感任务中得到了广泛应用。在本文中,我们对遥感中基于深度学习的领域自适应的重要进展进行了全面综述。我们首先介绍了预备知识,以阐明关键概念、数学符
2025-10-29 06:03:43
1605
原创 【Block总结】MRFA,大卷积感受野,提高小目标检测的利器|即插即用|ICCV 2025
该论文通过深入分析有效感受野(ERF)的分布特性,指出了当前大核ConvNets的局限性,并创新性地提出了感受野聚合器(RFA)这一模块。RFA通过分阶段、渐进式地融合多尺度上下文信息,在显著扩展ERF的同时,成功保持了其符合人类直觉的渐近高斯分布(AGD)。基于此构建的UniConvNet模型,无论是在轻量级还是超大规模场景下,都在多项视觉任务上实现了性能突破,为未来ConvNet的设计提供了一个强大且高效的通用范式。这项工作强调了感受野的质量(分布)与大小同等重要,为卷积网络的研究开辟了新的方向。
2025-10-28 09:42:49
1125
原创 UniConvNet:为任意规模的卷积神经网络在扩展有效感受野的同时保持渐近高斯分布
具有大有效感受野(ERF)的卷积神经网络(ConvNets)仍处于早期阶段,尽管其展现出令人瞩目的有效性,但受限于高昂的参数量和计算量(FLOPs)成本,并且会破坏ERF的渐近高斯分布(AGD)。本文提出了一种替代范式:与其单纯地使用极大的ERF,不如通过合理组合较小的卷积核(如7×79×911×11)来扩展ERF,同时保持其AGD,这种方法更为有效和高效。
2025-10-28 06:55:17
716
原创 面向具身人工智能的二维世界模型综合综述
具身人工智能(Embodied AI)要求智能体能够感知、行动并预测其行为将如何重塑未来的环境状态。世界模型作为一种内部模拟器,能够捕捉环境动态,从而支持感知、预测和决策的前向与反事实推演。本综述为具身人工智能中的世界模型提出了一个统一的框架。具体而言,我们形式化了问题设定和学习目标,并提出了一个包含三个轴的分类法:(1)
2025-10-27 21:45:00
1608
原创 MAMBA-3:利用状态空间原理改进的序列建模
https://openreview.net/pdf?id=HwCvaJOiCj近期对大语言模型(LLM)推理时计算资源的扩展,使得只有那些具备强大能力、能以高效推理方式生成高质量输出的模型才具有实际部署价值。尽管当前基于Transformer的模型是行业标准,但其二次方的计算复杂度和线性增长的内存瓶颈,推动了次二次方模型的发展,这类模型具有线性扩展的计算量和恒定的内存需求。然而,许多近期的线性风格模型在某些能力上有所欠缺或质量落后,甚至其线性时间推理在硬件上也并非高效。本着以推理为先的理念,我们引入了三项
2025-10-27 20:30:00
1410
原创 自监督 YOLO:利用对比学习实现标签高效的目标检测
YOLO 系列等单阶段目标检测器在实时视觉应用中实现了最先进的性能,但其训练仍严重依赖大规模标注数据集。本文系统研究了对比自监督学习(Self-Supervised Learning, SSL)作为一种减少该依赖性的手段,通过在未标注图像上使用 SimCLR 框架对 YOLOv5 和 YOLOv8 的骨干网络进行预训练。我们提出了一种简单而有效的流程:将 YOLO 的卷积骨干网络作为编码器,采用全局池化和投影头,并利用 COCO 未标注数据集(12 万张图像)的增强视图优化对比损失。
2025-10-27 19:15:00
1766
1
原创 SCSegamba:用于结构裂缝分割的轻量级结构感知视觉Mamba网络
在各种场景下对结构裂缝进行像素级分割仍然是一项重大挑战。现有方法在有效建模裂缝形态和纹理方面面临困难,并且难以在分割质量与低计算资源消耗之间取得平衡。为克服这些局限性,我们提出了一种轻量级的结构感知视觉Mamba网络(SCSegamba),该网络能够以极低的计算成本,利用裂缝像素的形态信息和纹理线索生成高质量的像素级分割图。具体而言,我们开发了一种结构感知视觉状态空间模块(SAVSS),该模块结合了轻量级门控瓶颈卷积(GBC)和结构感知扫描策略(SASS)。
2025-10-26 22:39:04
916
原创 【Block总结】GBC,轻量级门控瓶颈卷积|CVPR 2025|即插即用
SCSegamba的整体架构包含两个主要组件:用于提取裂缝形状和纹理特征的结构感知视觉状态空间模块(SAVSS),以及用于高效特征处理的多尺度特征分割头(MFS)。SCSegamba作为一种轻量级结构感知视觉Mamba网络,通过结合SAVSS和MFS,以较低的参数数量增强了裂缝形状和纹理感知能力。配备GBC和SASS扫描的SAVSS能够捕捉各种结构中不规则的裂缝纹理。在四个数据集上的实验证明了SCSegamba的卓越性能,特别是在复杂、嘈杂的场景中。
2025-10-26 22:22:08
851
原创 基于多焦点高斯邻域注意力机制与大规模基准的视频人群定位
视频人群定位是一项关键但极具挑战性的任务,其目标是估计给定拥挤视频中人头的精确位置。为了对人类移动的时空依赖性进行建模,我们提出了一种多焦点高斯邻域注意力机制(GNA),该机制能够有效地利用长距离对应关系,同时保持输入视频的空间拓扑结构。特别是,我们配备的多焦点机制使GNA能够很好地捕捉人头的尺度变化。基于多焦点GNA,我们开发了一个统一的神经网络,称为GNANet,它通过场景建模模块和上下文交叉注意力模块,充分聚合时空信息,从而在视频片段中精确定位人头中心。此外,为了促进该领域的未来研究,我们引入了一个名
2025-10-25 18:02:46
1088
原创 FMC-DETR:面向航拍视角目标检测的频域解耦多域协同方法
航拍视角目标检测是自然资源监测、交通管理和无人机搜救等现实应用中的一项关键技术。在高分辨率航拍图像中检测微小目标一直是一个长期存在的挑战,原因在于其有限的视觉线索以及在复杂场景中建模全局上下文的困难。现有方法常常受到上下文融合延迟和非线性建模不足的阻碍,无法有效利用全局信息来优化浅层特征,从而遭遇性能瓶颈。为了解决这些挑战,我们提出了,一种用于航拍视角目标检测的新型框架,其核心是频域解耦融合。首先,我们引入了。
2025-10-25 17:07:50
1017
原创 MFF-YOLOv8:基于多尺度特征融合的无人机遥感图像小目标检测
在无人机拍摄场景中,目标检测是一项热门任务,其图像包含大量小目标,但现有网络常出现漏检和误检问题。为解决此问题,我们提出了一种基于多尺度特征融合的YOLO算法——MFF-YOLOv8,用于无人机航拍图像中的小目标检测。首先,我们设计了一个高分辨率特征融合金字塔(HFFP),该模块利用包含丰富小目标信息的高分辨率特征图来引导特征融合模块,对特征图进行加权融合,从而增强网络对小目标的表征能力。同时,采用了一个重建特征选择(RFS)模块,以去除高分辨率特征图产生的大量噪声。
2025-10-24 10:41:24
1255
原创 MFFCI-YOLOv8:一种基于多尺度特征融合与上下文信息的轻量级遥感目标检测网络
本文对YOLOv8s进行了改进和优化,引入了一种更好的网络框架MFFCI-YOLOv8,用于图2所示的RSOD。首先,输入图像在骨干网络中进行特征提取。在这方面,我们提出了更轻、更快的LCA模块,以减少通道冗余,从而减少参数和计算复杂度。此外,为了提高特征提取能力,引入了无参数的SimAM注意力方法。随后,我们引入了GSPPF模块,以改善尺度感知和上下文感知能力,从而增强整体特征表示。MFLNeck模块能够实现更有效的多尺度特征融合,并辅以融合LCA模块,旨在准确检测更小的目标。
2025-10-24 05:43:38
622
原创 基于 HRFPN 与 EfficientVMamba 的高精度无人机小目标检测
HRMamba-YOLO:基于高分辨率特征金字塔与Mamba的小目标检测算法 本研究提出HRMamba-YOLO算法,针对无人机图像小目标检测难题。该算法融合HRNet的高分辨率特征保持能力、Mamba的长程建模优势与YOLO的高效检测框架,创新性引入: 双空间金字塔池化模块增强多尺度特征提取 高效Mamba模块(EMM)和融合Mamba模块(FMM)强化上下文建模 高分辨率特征金字塔网络(HRFPN)优化跨尺度特征融合 在VisDroneDET数据集上,mAP较YOLOv8-m提升4.4%,Dota1.5
2025-10-23 07:00:03
1613
原创 Yolo分割数据集错误数据删除
检查yolo系列的分割数据,如果怀疑数据集有问题,可以使用此代码,dry_run 先设置为True,执行后会打印有问题的数据,观察打印的数据符合预期,然后,再改为False,删除异常数据。
2025-10-22 23:30:00
260
Vim实战:使用Vim实现图像分类任务
2024-01-30
Hiera-MAE-Demo.zip
2024-03-05
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务
2024-04-02
YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip
2024-02-21
MogaNet实战:使用MogaNet实现图像分类任务
2024-02-12
YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如
2024-02-05
FlashInternImage实战:使用FlashInternImage实现图像分类任务
2024-01-27
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务
2024-01-13
TransXNet实战:使用TransXNet实现图像分类任务
2023-12-19
Hiera实战:使用Hiera实现图像分类任务
2023-12-07
RevCol实战:使用RevCol实现图像分类任务
2023-11-25
FastVIT实战:使用FastVIT实现图像分类
2023-08-21
VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型
2023-08-07
OverLoCK实战:使用OverLoCK实现图像分类任务
2025-05-19
SparX实战:使用SparX实现图像分类任务
2025-01-29
DFFormer实战:使用DFFormer实现图像分类
2025-01-27
CrossFormer实战:使用CrossFormer实现图像分类任务
2025-01-12
DilateFormer实战:使用DilateFormer实现图像分类任务
2024-12-26
VOLO实战:使用VOLO实现图像分类任务
2024-11-25
DeBiFormer实战:使用DeBiFormer实现图像分类任务
2024-11-07
EfficientFormer实战:使用EfficientFormerV2实现图像分类任务
2024-09-19
GCViT实战:使用GCViT实现图像分类任务
2024-09-02
CAS-ViT实战:使用CAS-ViT实现图像分类任务
2024-08-22
GroupMamba实战:使用GroupMamba实现图像分类任务
2024-07-31
EfficientMod实战:使用EfficientMod实现图像分类任务
2024-07-20
RDNet实战:使用RDNet实现图像分类任务
2024-07-09
YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力
2024-07-01
StarNet实战:使用StarNet实现图像分类任务
2024-06-17
Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务
2024-06-11
MobileNetV4实战:使用MobileNetV4实现图像分类任务
2024-06-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅