【论文阅读 | TGRS 2025 | DHANet:用于多模态无人机目标检测的双流分层交互网络】
基于无人机的遥感已成为高分辨率动态监测的关键技术。然而,日间和夜间模式之间的差异会在极端光照条件下引发多尺度目标特征的失配。本文提出了一种用于多模态无人机目标检测的双流分层交互网络(DHANet),该网络增强了每种模态下多尺度目标与背景之间的可区分性。具体来说,DHANet设计了一个模态自适应非对称注意力模块(M-AAM),通过全局和局部注意力机制增强目标级语义表示。M-AAM采用全局上下文注意力和局部位置注意力来替代传统的多尺度上下文提取,从而有效整合对象的空间-通道信息。此外,该网络配备了一个。
【论文阅读 | CVPR 2025 |MambaVision:一种混合 Mamba-Transformer 视觉骨干网络】
我们提出了一种新颖的混合 Mamba-Transformer 骨干网络 MambaVision,专为视觉应用量身设计。我们的核心贡献包括重新设计 Mamba 公式,以增强其对视觉特征的高效建模能力。通过全面的消融研究,我们证明了将视觉 Transformer(ViT)与 Mamba 集成的可行性。研究结果表明,在Mamba 架构的最后几层配备自注意力块,能显著提升其捕捉长距离空间依赖关系的能力。基于这些发现,我们推出了一系列 MambaVision 模型,它们采用层次化架构,可满足不同的设计需求。
【具身智能】Spatial Forcing 论文笔记 如何隐式地为 VLA 注入 3D 空间感知能力
本文提出Spatial Forcing(SF)方法,通过隐式对齐视觉-语言-动作模型(VLA)的中间视觉嵌入与预训练3D基础模型(VGGT)的空间表征,有效解决了传统VLA模型因基于2D图像训练导致的空间感知不足问题。SF无需显式3D输入或深度估计器,在训练阶段引入对齐损失函数,提升VLA的空间理解能力,同时保持推理结构不变。实验表明,SF在模拟环境中实现3.8倍训练加速和5.9倍数据效率提升,在真实机器人任务中成功率提升高达47.5%。该方法为增强机器人空间感知提供了一种高效通用的解决方案。
【弱监督语义分割】SFC: Shared Feature Calibration in Weakly Supervised Semantic Segmentation 论文阅读
图像级弱监督语义分割因其低标注成本而受到越来越多的关注。现有方法主要依赖于类激活映射(Class Activation Mapping, CAM)来生成伪标签,用于训练语义分割模型。在本研究中,我们首次揭示了训练数据中的长尾分布会导致通过分类器权重计算的CAM在头部类别上过度激活,而在尾部类别上激活不足,这主要是由于头部和尾部类别之间共享特征的存在。这种情况会降低伪标签的质量,并进一步影响最终的语义分割性能。为了解决这一问题,我们提出了一种用于CAM生成的。
【论文阅读】BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding——叩开语言模型的大门!
谷歌AI团队提出的BERT模型开创性地实现了深度双向预训练,通过掩码语言模型(MLM)和下一句预测(NSP)两项创新任务,使模型能够融合上下文信息理解语义。基于Transformer编码器架构,BERT采用预训练-微调范式,在11项NLP任务上取得当时最佳效果。其核心贡献包括:1)验证深度双向预训练的重要性;2)提出MLM和NSP任务实现双向学习;3)确立"预训练+微调"的通用范式。BERT显著推进了NLP领域发展,成为后续研究的基准模型。
【论文阅读】A Survey of Reinforcement Learning for Large Reasoning Models
在本文中,我们综述了利用强化学习赋能大型语言模型进行推理的近期进展。强化学习在推动 LLM 能力前沿方面取得了卓越的成功,尤其是在解决数学和编程等复杂的逻辑任务上。因此,强化学习已成为将 LLM 转变为语言推理模型 (LRM) 的一种基础性方法。随着该领域的飞速发展,将强化学习进一步扩展应用于 LRM 不仅在计算资源方面,也在算法设计、训练数据和基础设施方面面临着基础性挑战。为此,我们有必要及时回顾该领域的发展历程,重新评估其发展轨迹,并探索各种策略来增强强化学习的可扩展性,以期最终迈向超级人工智能 (AS
论文阅读 | PNAS-MOT: Multi-Modal Object Tracking With Pareto Neural Architecture Search
本文提出PNAS-MOT(基于Pareto神经架构搜索的多模态目标跟踪方法),针对自动驾驶中多目标跟踪(MOT)存在的单传感器不可靠与高 latency(延迟)问题,采用跟踪-检测(tracking-by-detection)范式,融合图像与LiDAR点云双模态数据,通过帕累托优化的约束神经架构搜索(NAS),在保证较高精度(KITTI基准测试中MOTA达89.59%,接近SOTA水平)的同时,实现低延迟(边缘设备如Jetson Nano上 latency低于80ms,高性能GPU上最低至8ms。
论文阅读:BRACIS 2024 Investigating Universal Adversarial Attacks Against Transformers-Based Automatic Es
先说说背景:现在很多自动评分系统用的是“Transformer”这种先进的AI技术(比如BERT、Phi-3、Gemini这些模型),虽然评分效率高,还能用于GRE、托福这类重要考试,但这些AI其实可能“走捷径”——不是真的看懂作文质量,而是靠一些表面特征(比如字数多、用了很多副词形容词)来打分。这份文档主要研究了一个很实际的问题:现在常用的“自动作文评分系统”(比如改作业时帮老师打分的AI),会不会被学生用简单方法“骗分”——也就是学生没写出好作文,却让AI给高分。研究团队是怎么做的呢?
论文笔记(九十六)VGGT: Visual Geometry Grounded Transformer
引用:主页:原文: https://openaccess.thecvf.com/content/CVPR2025/html/Wang_VGGT_Visual_Geometry_Grounded_Transformer_CVPR_2025_paper.html代码、数据和视频:系列文章:请在 《《《文章》》》 专栏中查找我们提出VGGT,这是一种前馈神经网络,能够直接从场景的一张、几张,甚至上百张视图中,推断出该场景的所有关键3D属性,包括相机参数、点图、深度图以及3D点轨迹。在3D计算机视觉领域


