自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 最常用场景 —— 按 “文件夹分类” 的自定义数据集

这篇文章介绍了一个自定义PyTorch视觉数据集类FolderCustomDataset的实现。该类可以从指定文件夹结构(每个子文件夹代表一个类别)加载图片数据,并自动生成类别标签映射。主要功能包括:1) 扫描文件夹获取类别列表并建立类别到数字标签的映射;2) 收集所有图片路径;3) 实现__len__和__getitem__方法,支持按索引获取图片数据并应用预处理变换。该类继承自torchvision的VisionDataset,适合用于图像分类任务的数据加载。

2025-10-02 22:27:45 131

原创 基础知识-优化器-附件

本文演示了PyTorch优化器的使用流程:1) 准备阶段:定义10维输入→20维隐藏层→2维输出的简单模型,生成模拟数据并封装为DataLoader,选择交叉熵损失函数;2) 优化阶段:初始化Adam优化器,在训练循环中执行关键三步:前向计算损失→反向传播求梯度→optimizer.step()更新参数。重点说明梯度清零的必要性、批量训练优势以及优化器如何自动调整参数。通过5个epoch的训练,模型损失逐步下降,展示了优化器的工作原理。

2025-10-02 20:12:45 94

原创 ICCV | 2025 | SkySense V2:面向多模态遥感的统一基础模型

ICCV 2025论文《SkySense V2:面向多模态遥感的统一基础模型》提出了一种创新性的多模态遥感基础模型。该研究通过跨模态共享的统一Transformer主干网络(结合SwinV2B和标准Transformer Blocks)、自适应补丁合并模块(APM)和模态特定提示令牌(MsP)三大核心技术,有效解决了多模态遥感数据处理的参数冗余和特征多样性问题。此外,提出的基于查询的语义聚合对比学习(QSACL)和混合专家(MoE)模块进一步提升了模型性能。实验表明,SkySense V2在7类任务16个数

2025-09-20 23:47:07 1081

原创 MAP的具体实现

本文提出了一种混合Mamba-Transformer的视觉骨干网络MAP,通过掩码自回归预训练来释放其潜力。模型采用分阶段处理流程:首先通过PatchEmbed模块将输入图像转换为序列化的图像块表示,然后加入位置编码。在编码阶段,模型基于掩码矩阵保留可见序列,通过交替堆叠Mamba层和Transformer块来提取特征。该方法结合了Mamba的高效序列建模能力和Transformer的全局特征交互优势,在视觉任务中展现出优异的性能。代码已开源,相关论文已被CVPR 2025收录。

2025-09-17 22:41:04 934

原创 CVPR | 2025 | MAP:通过掩码自回归预训练释放混合 Mamba - Transformer 视觉骨干网络的潜力

这种预训练方法在对局部特征的上下文特征以及局部特征之间的关联进行建模方面展现出显著优势,使其与Mamba-Transformer混合架构具有高度的兼容性。分别掩码 1 个令牌(0.5%)、20 个令牌(10%)、40 个令牌(20%)、60 个令牌(30%)、100 个令牌(50%)和 140 个令牌(70%),同时记录在下游任务上的微调结果。使用 Transformer 解码器而非 Mamba 解码器的原因是,Transformer 解码器可以通过应用解码器掩码,基于编码器的特征进行区域重建。

2025-08-21 20:45:15 1245

原创 EfficientVMamba代码略讲

模型首先将输入的图像 xxx 进行 patch_embedpatch\_embedpatch_embed 操作。具体实现如下:接下来,经过嵌入以后的张量送入layers进行操作:具体实现分析:后两层(i_layer>=2i\_layer >= 2i_layer>=2):由多个 InvertedResidualInvertedResidualInvertedResidual 模块和下采样层组成的序列。每层的具体结构在 EfficientVSSMEfficientVSSMEfficient

2025-08-21 15:13:35 756

原创 AAAI | 2025 | EfficientVMamba:用于轻量级视觉 Mamba 的空洞选择性扫描

本文提出了EfficientVMamba,一种轻量级视觉Mamba架构,通过以下创新提升效率:1)提出空洞选择性扫描策略(ES2D),采用跳跃采样和重新分组机制,将计算复杂度从O(N)降至O(N/p²);2)设计双路径EVSS模块,结合改进的ES2D和卷积分支,并引入通道注意力平衡全局-局部特征;3)采用倒置融合策略,早期阶段使用SSM进行全局建模,深层使用CNN提升局部效率。该方法在保持全局建模能力的同时显著降低计算成本,为轻量化视觉模型提供了新思路。代码已开源。

2025-07-30 19:22:00 1185

原创 NeurlPS | 2024 | QuadMamba:基于四叉树的视觉状态空间模型选择性扫描学习

摘要 本文提出QuadMamba,一种基于四叉树的视觉状态空间模型,用于解决现有视觉Mamba方法在局部邻接性保留和长程建模方面的局限性。传统方法要么采用破坏局部性的光栅扫描,要么使用固定窗口分割限制灵活性。QuadMamba通过可学习的四叉树分割策略,自适应地构建不同粒度的窗口象限,重点聚焦信息丰富的区域。该方法引入轻量级预测模块评估局部邻接性,采用Gumbel-Softmax实现可微分的窗口分割,并设计全向窗口移位方案增强特征捕捉能力。实验表明,QuadMamba在图像分类、检测和分割等任务中表现优异,

2025-07-30 17:00:11 1203

原创 ECCV | 2024 | LocalMamba:具有窗口选择性扫描的视觉状态空间模型

摘要 本文提出LocalMamba,一种改进的视觉状态空间模型(SSM),通过优化扫描策略增强局部特征捕捉能力。传统方法将图像扁平化为一维序列时破坏了局部二维依赖关系,导致相邻像素距离拉大。LocalMamba创新性地将图像划分为局部窗口进行独立扫描,同时保留全局视角。此外,作者设计了一种跨层扫描方向搜索机制,动态选择最优扫描组合,并通过空间-通道注意力模块SCAttn有效融合多方向特征。实验表明,该方法在保持计算量的前提下显著提升了模型性能,为视觉SSM的局部建模提供了新思路。代码已开源。

2025-07-30 11:48:30 777 1

原创 CVPR | 2024 | Visual Mamba 综述(更新中)

视觉 Mamba 模型研究综述:现状与展望 本文系统综述了视觉 Mamba 模型的最新进展。Mamba 作为一种选择性结构化状态空间模型,在长序列建模方面展现出超越CNN和Transformer的潜力。文章首先介绍了视觉 Mamba 的核心组件,包括令牌化方法、扫描技术(方向、轴向、连续性和采样策略)和架构设计。重点分析了代表性模型如VMamba、Vim等的创新点,如二维深度卷积层替代、双向SSM等技术。研究还按不同模态(图像、视频等)分类整理了Mamba的应用成果。最后探讨了该领域面临的挑战,包括可扩展性

2025-07-29 23:12:58 2936

原创 如何使用vscode的remote-ssh链接远程终端

nano ~/.ssh/authorized_keys 是打开密钥配置文件编辑器。mkdir -p ~/.ssh 是创建 SSH 配置目录。点击 Download for Windows。在标有**【直接回车】**的地方按下回车键即可。在搜索框中输入Remote-SSH。点击左侧边栏最后一个(扩展模块)然后,接着将公钥复制到远程服务器。Ctrl + X(退出编辑器)点击第一个或者第二个都行。Ctrl + O(保存)大功告成,可以免密登陆了。vscode中,点击。

2025-07-02 16:19:03 1100

原创 ICLR | 2025 | 为掩蔽图像建模学习掩码不变互信息

)定理 2:将 X⋅(1−m)~+r\widetilde{X \cdot (1-m)}+rX⋅(1−m)​+r 表示为通过训练找到的有偏最简有效描述,其中 rrr 是偏差。设 MAE 的预测潜在特征为z^\hat{z}z^。潜在特征是 MAE 的信息瓶颈,因此 z^=X⋅(1−m)~+r\hat{z} = \widetilde{X \cdot (1-m)} + rz^=X⋅(1−m)​+r。互信息I(X⋅(1−m)~;X⋅m)I(\widetilde{X \cdot (1-m)}; X \cdot m)I(

2025-06-29 20:02:20 1019

原创 ECCV | 2024 | ColorMAE:探索 Masked AutoEncoders 中与数据无关的掩码策略

本文提出了ColorMAE,一种基于颜色噪声的新型掩码策略,用于提升Masked AutoEncoders(MAE)的性能。该方法通过对随机噪声应用低通、高通、带通和带阻滤波器,生成具有独特频谱特性的红色、蓝色、绿色和紫色噪声掩码。实验表明,其中带通滤波生成的"绿色掩码"(ColorMAE-G)在图像分类、语义分割和目标检测任务中表现最佳,显著优于传统随机掩码。该策略无需引入额外参数,保持了MAE的计算效率。通过在频域上设计多样化掩码模式,ColorMAE有效提升了视觉表征的学习质量,为

2025-06-22 15:03:36 875

原创 ICLR | 2025 | SAMBA:用于高效无限上下文语言建模的简单混合状态空间模型

微软研究团队在ICLR 2025上提出SAMBA模型,一种结合状态空间模型Mamba和滑动窗口注意力的混合架构,实现了高效无限上下文建模。SAMBA通过Mamba层捕捉长程依赖(线性复杂度),SWA层精确检索短期记忆,在保持高效的同时解决了纯SSM模型记忆召回不足的问题。实验表明,预训练于4K长度的SAMBA可零样本外推至100万Token,微调后更支持256K完美记忆召回。在38亿参数规模下,其性能超越同类Transformer模型,吞吐量提升3倍以上,为长上下文任务提供了新的高效解决方案。

2025-06-08 13:18:38 925

原创 CVPR | 2023 | R-MAE:区域遇见掩码自动编码器

此外,还对不同来源的区域进行了消融实验,包括全景区域(COCO 数据集的真值标注)和 SAM 模型生成的区域。给定一个区域查询,将其与所有值向量相加,以扩展其空间轴(右图)。注:值得注意的是,这里可以被阐述为,输入的图像是突出表示特定区域的图像,并不是传统的RGB图像。有趣的是,图 3 显示,当使用无监督的、可通过图像计算的区域图对 R-MAE 进行预训练时,ViT 特征表现出更强的实例感知能力。表 1d 中,对比了不同来源的区域:默认的 FH 区域、COCO 真值的全景区域和 SAM 生成的区域。

2025-05-23 19:26:51 696

原创 AAAI | 2024 | SupMAE:有监督掩码自编码器是高效的视觉学习器

除非另有说明,默认设置为:重建(rec)和分类(cls)的损失比为 1 和 0.01,使用全局池化特征进行分类,解码器深度为 8,数据增强为随机裁剪(random resized cropping),掩码率为 75%,预训练时长为 200 轮。它们相应的图像块特征用于(1)重建缺失像素和(2)对类别进行分类。SupMAE 通过重建损失和分类损失进行优化,同时学习细粒度的局部特征和全局特征。进一步用于有监督分类。(2)可以在训练过程中对所有输入标记计算损失,而不仅仅是对重建操作所涉及的被掩码子集计算损失。

2025-05-14 14:59:55 612

原创 NeurlPS | 2022 | SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders

之后,逐渐掩蔽属于某些部件的所有图像块,以及剩余部件中的部分图像块。最后,掩蔽属于部分部件的所有图像块,并预测属于其他部件的剩余图像块,在这个过程中,模型能够学习到部件之间的关系或视觉推理能力。图 4 展示了本文的模型与 iBOT 的定性比较,可以看出我们的模型能生成更完整的语义部件分割图,不同部件和背景之间的分离更好,噪声更少。表 4 中的结果表明,iBOT 获得的语义部件无法使 MAE 的学习受益,而本文的语义部件学习方法能生成更精确的部件分割图,这对学习更好的图像表示至关重要。

2025-05-07 18:41:58 1076

原创 TPAMI 2024 | CMAE | 对比掩码自动编码器是更强大的视觉学习器

值得注意的是,CMAE的设计是非侵入性的,可以很容易地应用于现有的MIM模型,如MAE和ConvMAE,而无需对MIM模型进行重大修改。值得注意的是,与现有技术相比,CMAE 在 ImageNet1k 分类验证集上的绝对增益为 0.7%,在 ADE20K 语义分割验证数据集上的平均交并比(mIoU)提升了 1.8%,在 CoCo 验证集上的。,掩码掉很大比例的补丁,并将可见补丁输入到在线编码器。通过这种方式,在线编码器学习到的表征不仅捕获了输入图像的整体特征,还包含判别性特征,从而实现更好的泛化性能。

2025-04-16 18:06:18 795

原创 NeurIPS 2022 | MCMAE | MCMAE:掩蔽卷积遇见掩蔽自动编码器

本文中, MCMAE 框架展示了多尺度混合卷积 - Transformer可以通过掩码自动编码方案学习更具判别力的表示。然而,直接使用原始的掩码策略会导致计算成本过高以及预训练和微调之间的差异。为了解决这个问题,采用掩码卷积来防止卷积块中的信息泄漏,并提出了一种简单的分块掩码策略以确保计算效率。还提出更直接地监督编码器的多尺度特征,以增强多尺度特征。

2025-04-11 23:47:38 1899

原创 TPAMI 2024 | EMAE | 具有自一致性的高效掩码自动编码器

受自然语言处理任务中掩码语言建模(MLM)的启发,掩码图像建模(MIM)已被公认为计算机视觉中一种强大的自监督预训练方法。MIM 的高随机掩码率导致两个严重问题:1)每次迭代中图像的数据利用率不足,导致预训练时间延长;2)预测的高度不一致导致生成结果不可靠,即相同补丁在不同掩码轮次中的预测可能不一致,从而在最终生成的结果中产生语义分歧。为了解决这些问题,本文提出了具有自一致性的高效掩码自动编码器(EMAE),以提高预训练效率并增强 MIM 的一致性。具体而言。

2025-03-30 21:06:37 632

原创 NeurlPS 2024 | MILA | 揭开视觉领域中 Mamba 的神秘面纱:基于线性注意力视角的分析

本文揭示了强大的 Mamba 模型与 linear attention Transformer 之间存在着惊人的相似之处,而 linear attention Transformer 在实际应用中通常表现不如传统 Transformer.

2025-03-22 17:53:15 1159

原创 MA3E | 用于遥感图像的掩蔽角度感知自动编码器

为了克服遥感(RS)图像与自然图像之间固有的领域差距,一些自监督表示学习方法取得了有前景的进展。然而,它们忽视了遥感物体中存在的多样角度。本文提出了掩蔽角度感知自动编码器(MA3E),以在预训练过程中感知和学习角度。设计了一种缩放中心裁剪操作,在每个原始图像上创建具有随机方向的旋转裁剪区域,引入显式的角度变化。MA3E 将这种合成图像作为输入,同时重建原始图像,旨在通过恢复旋转裁剪区域上引入的角度变化来有效地学习旋转不变表示。

2025-03-15 21:35:18 539 2

原创 论文阅读 | CVPR | MambaOut:视觉任务真的需要 Mamba 吗?

与卷积模型和基于注意力的模型相比,Mamba 在视觉任务上的表现往往不尽人意。Mamba非常适合具有长序列和自回归特性的任务。图像分类任务并不具备这两个特性(长序列和自回归特性),因此假设 Mamba对于该任务并非必需;检测和分割任务虽然不是自回归的,但具有长序列特性;构建名为 MambaOut 的模型,这些模型通过堆叠 Mamba块并去除其核心令牌混合器 SSM 得到。图 1(a)门控卷积神经网络(Gated CNN)和Mamba 模块的架构(省略了归一化层和残差连接)。

2025-03-12 22:06:59 3431 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除