
【论文阅读 | CVPR 2025 |MambaVision:一种混合 Mamba-Transformer 视觉骨干网络】
我们提出了一种新颖的混合 Mamba-Transformer 骨干网络 MambaVision,专为视觉应用量身设计。我们的核心贡献包括重新设计 Mamba 公式,以增强其对视觉特征的高效建模能力。通过全面的消融研究,我们证明了将视觉 Transformer(ViT)与 Mamba 集成的可行性。研究结果表明,在Mamba 架构的最后几层配备自注意力块,能显著提升其捕捉长距离空间依赖关系的能力。基于这些发现,我们推出了一系列 MambaVision 模型,它们采用层次化架构,可满足不同的设计需求。


【论文阅读】Efficient Dynamic Clustering-Based Document Compression for Retrieval-Augmented-Generation
本文提出了一种高效的动态聚类文档压缩框架EDC²-RAG,用于解决RAG系统中检索内容存在的噪声、冗余和重复问题。该框架通过文档编码、聚类和基于提示的压缩技术,有效利用文档间的细粒度关系,提升信息密度并减少无关内容。实验在知识问答和幻觉检测数据集上进行,以GPT-3.5为基础模型,结果显示该方法在多种场景下均能显著提升性能。相比传统RAG方法,EDC²-RAG具有更好的鲁棒性和适用性,且无需额外训练即可即插即用。该工作为LLM的知识更新和幻觉问题提供了新的解决方案。

