- 博客(5)
- 收藏
- 关注
原创 Masked Angle-Aware Autoencoder for Remote Sensing Images
针对遥感图像 “目标角度多样、传统掩码自编码器(MAE)隐式学习角度效果有限” 的问题,提出Masked Angle-Aware Autoencoder(MA3E):通过 “缩放中心裁剪生成旋转块、角度嵌入注入角度信息、分开掩码保护角度特征、最优传输(OT)损失解决旋转块重建偏差” 的闭环设计,实现 “像素重建 + 角度恢复” 双目标学习,最终在遥感场景分类、旋转目标检测、语义分割三大下游任务中超越现有 MIM 方法,验证了 “显式角度感知” 对遥感图像自监督表示学习的提升价值。
2025-12-07 11:47:51
990
原创 ChA-MAEViT: Unifying Channel-Aware Masked Autoencoders and Multi-Channel Vision Transformers
独立补丁掩码:对每个通道独立采样掩码补丁(非单通道掩码复制),确保各通道掩码位置不同;动态通道掩码:随机采样0~(c-1)个通道(c为总通道数),对选中通道的所有补丁全掩码;最终掩码将**“被掩码的补丁/通道”作为重建目标**,强制模型用未掩码通道的信息恢复这些内容。在该论文中,论文实验通过 “严谨设计→多场景验证→组件消融→鲁棒性扩展→可视化佐证”,形成完整严谨的论证跨通道交互是 MCI 的关键,ChA-MAEViT 通过 DCP Masking 强制跨通道学习,性能提升 3.0~21.5%
2025-11-30 12:28:20
679
1
原创 SupMAE:有监督掩码自编码器是高效的视觉学习器
监督预训练的 “epoch 饱和” 问题显著组件设计的适配性与通用性不足模型架构适配性单一:实验主要基于 ViT-B/16 验证,仅在 SimMIM+Swin-Base 上做了简单兼容性测试(表 7,精度提升 0.2%),未深入探索在更大模型(如 ViT-L/H)、 hierarchical 架构(如 Swin-V2、ConvNeXt)上的表现,难以验证方法对不同视觉 Transformer 的普适性。
2025-11-29 17:29:56
985
原创 MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone’s Potential with Masked Autoregressive Pret
默认架构仅在静态图像任务(分类、分割)中验证,组件的扩展性受限固定采用 “50% 随机掩码 + Transformer 行 - wise 解码”,未探索动态掩码或轻量化解码器任务覆盖不全面,主实验集中于分类、分割、检测等基础视觉任务,未验证 MAP 在复杂专业领域的泛化性(如视频目标跟踪、3D 场景重建、病理切片分析)
2025-11-06 17:45:51
895
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅