稀疏注意力、视觉语言新突破：本周Hugging Face TOP 10论文速览

最新推荐文章于 2025-09-24 23:44:23 发布

转载最新推荐文章于 2025-09-24 23:44:23 发布 · 475 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247656062&idx=4&sn=c8dc4d5553c4a8fe33d3f8c397e03a6b&chksm=cf0b1c477feb4463379d64a2f1314ad048b060b7d1c6d32e3a2894dea90a4f76c3c32f48cc37&scene=126&sessionid=0

作者 | 书生·浦语等LLM 编辑 | 机智流

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『自动驾驶』技术交流群

本文只做学术分享，如有侵权，联系删文

各位AI爱好者，本周Hugging Face Daily Papers又带来了一波前沿研究成果！从长上下文建模到多模态视觉语言模型，再到AI研究Agent的新框架，TOP 10论文亮点满满，投票数火爆，值得一读！以下是简要介绍，快来一起看看吧～

1. Native Sparse Attention 🚀（129票）

🔗 https://huggingface.co/papers/2502.11089
🔥 NSA（Native Sparse Attention）来了！针对长上下文建模的高计算成本问题，NSA通过动态层次稀疏策略和硬件优化，实现高效建模。实验证明，它在64k序列上大幅提速，同时性能媲美甚至超全注意力模型。效率与能力双赢！

2. Qwen2.5-VL Technical Report 🔥（128票）

🔗 https://huggingface.co/papers/2502.13923
🚀 Qwen视觉语言系列旗舰升级！Qwen2.5-VL在视觉识别、文档解析和长视频理解上表现亮眼，支持动态分辨率处理，能精准定位对象并提取结构化数据。72B模型直逼GPT-4o，文档理解更是强到飞起！

3. MLGym: AI研究Agent新框架 🚀（121票）

🔗 https://huggingface.co/papers/2502.14499
🔥 Meta MLGym和MLGym-Bench首次为AI研究任务打造Gym环境，涵盖13个开放性任务。测试结果显示，即便是前沿LLM也难生成新颖假设，暴露了AI研究能力的瓶颈。开源框架已就位，等你来挑战！

4. SuperGPQA: 285学科LLM评估 🔥（78票）

🔗 https://huggingface.co/papers/2502.14739
🚀 覆盖285个学科的超大基准SuperGPQA登场！通过Human-LLM协作筛选题目，测试LLM的知识与推理能力。结果表明，即便是DeepSeek-R1也只有61.82%的准确率，AGI还有很长的路要走。

5. SigLIP 2: 多语言视觉编码器 🚀（77票）

🔗 https://huggingface.co/papers/2502.14786
🔥 SigLIP 2在图像-文本任务上全面升级，加入自监督损失和数据筛选技术，支持多分辨率输入。性能提升的同时，还优化了多语言理解和公平性，提供从86M到1B的多种模型选择。

6. Soundwave: 高效语音-文本对齐 🔥（73票）

🔗 https://huggingface.co/papers/2502.12900
🚀 Soundwave用1/50的训练数据打败Qwen2-Audio！通过新型架构和高效策略解决语音与文本的表示差距问题，翻译和语音任务表现抢眼。开源项目已上线，快去体验！

7. Cramming 1568 Tokens into a Vector 🚀（57票）

🔗 https://huggingface.co/papers/2502.13063
🔥 将1568个Token压缩进一个向量？这篇论文探索了嵌入空间的极限，发现x1500的压缩比是可行的！研究表明，压缩极限取决于序列的不确定性，揭示了模型设计的巨大优化空间。

8. The Danger of Overthinking 🔥（52票）

🔗 https://huggingface.co/papers/2502.08235
🚀 大型推理模型（LRM）也会“想太多”？论文分析了过思考的三种模式：分析瘫痪、错误行动和过早放弃。减少过思考可提升30%性能并降低43%计算成本，实用性拉满！

9. How Much Knowledge in a LoRA Adapter? 🔥（50票）

🔗 https://huggingface.co/papers/2502.14502
🚀 LoRA适配器能塞多少新知识？研究发现，混合已知和新事实的训练数据效果最佳，但仍可能损害模型的通用能力。如何平衡新知识与性能，值得深思。

10. Continuous Diffusion for Language Modeling 🚀（48票）

🔗 https://huggingface.co/papers/2502.11564
🔥 扩散模型也能玩语言建模！通过连续流设计和径向对称训练框架，这篇论文让扩散模型性能逼近自回归模型，开源代码已就位，赶紧去试试！

以上就是本周TOP 10论文速览！从效率优化到多模态突破，再到AI研究能力的探索，这些成果为未来的技术发展指明了方向。想了解更多？戳链接直达论文全文吧！💡 下周见！

-- 完 --

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）