Image Classification
文章平均质量分 94
Phoenixtree_DongZhao
深度学习 图像处理 空间物理
github:https://github.com/phoenixtreesky7
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
面向可解释与高效注意力:通过压缩少数实现整体压缩 [NeurIPS 2025]
本文提出了一种统一优化框架CBSA(压缩-广播自注意力),通过压缩少数代表性令牌实现自注意力机制的可解释性与效率提升。该框架揭示了softmax注意力、线性注意力和通道注意力均可视为CBSA的特例,其差异源于代表性令牌的选择策略。实验表明,CBSA在保持线性复杂度的同时,在图像分类和语义分割任务上展现出与现有方法相当甚至更优的性能。特别地,CBSA展现出对参数扰动的高度鲁棒性,并在混合模型中涌现出语义分割特性。这项研究为理解注意力机制的本质提供了新视角,同时实现了计算效率与模型性能的平衡。原创 2025-10-14 15:17:28 · 940 阅读 · 0 评论 -
DAMamba:具备动态自适应扫描机制的视觉状态空间模型 [NeurIPS 2025]
本文提出动态自适应扫描(DAS)方法,通过数据驱动机制自适应分配扫描顺序与区域,解决了现有视觉状态空间模型依赖固定扫描策略的问题。基于DAS构建的DAMamba模型在ImageNet分类任务中达到83.8%准确率,在COCO检测/分割任务中分别取得48.5 APb和43.4 APm,在ADE20K语义分割中获得50.3 mIoU,均超越当前最优视觉Mamba、CNN和ViT模型。实验表明DAS能有效聚焦关键区域,在保持线性计算复杂度的同时提升模型性能。原创 2025-10-12 16:40:25 · 1088 阅读 · 0 评论 -
EfficientViM: 基于隐藏状态混合器状态空间对偶的高效视觉Mamba [CVPR 2025]
摘要:本文提出EfficientViM,一种基于隐藏状态混合器状态空间对偶(HSM-SSD)的轻量级视觉架构,旨在解决资源受限环境中的高效视觉任务。HSM-SSD通过将通道混合操作转移至压缩的隐藏状态空间,显著降低了计算成本,同时提出多阶段隐藏状态融合(MSF)增强模型表示能力。实验表明,EfficientViM在ImageNet-1K上实现了最优速度-精度权衡,比SHViT快7%且精度提升0.6%,吞吐量和精度均优于现有方法。代码已开源。原创 2025-08-30 22:34:16 · 1152 阅读 · 0 评论 -
基于有效样本数的类别平衡损失 (Class-Balanced Loss, CVPR 2019)
本文认为随着样本数量增加,新增数据点带来的边际收益会递减。本文提出新颖的理论框架,通过将每个样本关联到一个小邻域而非单点来度量数据重叠。有效样本数量定义为样本体积,可通过简单公式(1−β^n)/(1−β)计算,其中n为样本数,β∈[0,1)是超参数。本文设计了重加权方案,利用每类的有效样本数量来重新平衡损失,从而得到类别平衡损失。原创 2025-04-19 13:14:58 · 1270 阅读 · 0 评论
分享