作者 | 书生·浦语等LLM 编辑 | 机智流
点击下方卡片,关注“自动驾驶之心”公众号
>>点击进入→自动驾驶之心『自动驾驶』技术交流群
本文只做学术分享,如有侵权,联系删文
各位AI爱好者,本周Hugging Face Daily Papers又带来了一波前沿研究成果!从长上下文建模到多模态视觉语言模型,再到AI研究Agent的新框架,TOP 10论文亮点满满,投票数火爆,值得一读!以下是简要介绍,快来一起看看吧~
1. Native Sparse Attention 🚀(129票)
🔗 https://huggingface.co/papers/2502.11089
🔥 NSA(Native Sparse Attention)来了!针对长上下文建模的高计算成本问题,NSA通过动态层次稀疏策略和硬件优化,实现高效建模。实验证明,它在64k序列上大幅提速,同时性能媲美甚至超全注意力模型。效率与能力双赢!
2. Qwen2.5-VL Technical Report 🔥(128票)
🔗 https://huggingface.co/papers/2502.13923
🚀 Qwen视觉语言系列旗舰升级!Qwen2.5-VL在视觉识别、文档解析和长视频理解上表现亮眼,支持动态分辨率处理,能精准定位对象并提取结构化数据。72B模型直逼GPT-4o,文档理解更是强到飞起!
3. MLGym: AI研究Agent新框架 🚀(121票)
🔗 https://huggingface.co/papers/2502.14499
🔥 Meta MLGym和MLGym-Bench首次为AI研究任务打造Gym环境,涵盖13个开放性任务。测试结果显示,即便是前沿LLM也难生成新颖假设,暴露了AI研究能力的瓶颈。开源框架已就位,等你来挑战!
4. SuperGPQA: 285学科LLM评估 🔥(78票)
🔗 https://huggingface.co/papers/2502.14739
🚀 覆盖285个学科的超大基准SuperGPQA登场!通过Human-LLM协作筛选题目,测试LLM的知识与推理能力。结果表明,即便是DeepSeek-R1也只有61.82%的准确率,AGI还有很长的路要走。
5. SigLIP 2: 多语言视觉编码器 🚀(77票)
🔗 https://huggingface.co/papers/2502.14786
🔥 SigLIP 2在图像-文本任务上全面升级,加入自监督损失和数据筛选技术,支持多分辨率输入。性能提升的同时,还优化了多语言理解和公平性,提供从86M到1B的多种模型选择。
6. Soundwave: 高效语音-文本对齐 🔥(73票)
🔗 https://huggingface.co/papers/2502.12900
🚀 Soundwave用1/50的训练数据打败Qwen2-Audio!通过新型架构和高效策略解决语音与文本的表示差距问题,翻译和语音任务表现抢眼。开源项目已上线,快去体验!
7. Cramming 1568 Tokens into a Vector 🚀(57票)
🔗 https://huggingface.co/papers/2502.13063
🔥 将1568个Token压缩进一个向量?这篇论文探索了嵌入空间的极限,发现x1500的压缩比是可行的!研究表明,压缩极限取决于序列的不确定性,揭示了模型设计的巨大优化空间。
8. The Danger of Overthinking 🔥(52票)
🔗 https://huggingface.co/papers/2502.08235
🚀 大型推理模型(LRM)也会“想太多”?论文分析了过思考的三种模式:分析瘫痪、错误行动和过早放弃。减少过思考可提升30%性能并降低43%计算成本,实用性拉满!
9. How Much Knowledge in a LoRA Adapter? 🔥(50票)
🔗 https://huggingface.co/papers/2502.14502
🚀 LoRA适配器能塞多少新知识?研究发现,混合已知和新事实的训练数据效果最佳,但仍可能损害模型的通用能力。如何平衡新知识与性能,值得深思。
10. Continuous Diffusion for Language Modeling 🚀(48票)
🔗 https://huggingface.co/papers/2502.11564
🔥 扩散模型也能玩语言建模!通过连续流设计和径向对称训练框架,这篇论文让扩散模型性能逼近自回归模型,开源代码已就位,赶紧去试试!
以上就是本周TOP 10论文速览!从效率优化到多模态突破,再到AI研究能力的探索,这些成果为未来的技术发展指明了方向。想了解更多?戳链接直达论文全文吧!💡 下周见!
-- 完 --
① 自动驾驶论文辅导来啦
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵