
这项由北京大学人工智能研究院的孟凡旭、汤平志、汤晓娟等研究人员与腾讯优图实验室、小米公司、通用人工智能研究院合作完成的研究,发表于2025年6月12日的arXiv预印本平台,论文编号为arXiv:2502.07864v5。有兴趣深入了解技术细节的读者可以通过GitHub项目地址https://github.com/fxmeng/TransMLA访问完整的研究代码和论文。
在人工智能快速发展的今天,大语言模型已经成为我们日常生活中不可或缺的助手。然而,就像一辆性能卓越的跑车却受限于狭窄的道路一样,目前的大模型在运行时往往受到"通信瓶颈"而非计算能力的限制。换句话说,模型的"思考"速度其实很快,但信息在不同组件间传递的速度却成了拖后腿的因素。
为了解决这个问题,学术界提出了多种技术方案,其中最引人注目的是DeepSeek公司开发的多头潜在注意力机制(MLA)。这种技术就像是给信息传递开辟了一条高速公路,通过压缩关键信息的存储方式,大幅提升了模型的运行效率。DeepSeek的V2、V3和R1等模型都采用了这种技术,展现出了卓越的性能表现。
然而,对于已经投入大量资源训练现有模型的公司来说,完全重新训练一个基于MLA架构的模型就像是推倒重建一栋已经建好的房子,成本高昂且耗时漫长。大部分模型提供商使用的是群组查询注意力机制(GQA),这种技术虽然也能提供不错的性能,但在效率上不如MLA。
正是在这样的背景下,北京大学的研究团队提出了TransMLA这个创新解决方案。TransMLA就像是一个神奇的"转换器",能够将现有的GQA模型直接转换为MLA格式,让模型享受到MLA的高效优势,而无需从头重新训练。这项技术不仅在理论上证明了MLA相比GQA具有更强的表达能力,更在实际应用中实现了高达10.6倍的推理速度提升。
研究团队首先从理论层面证明了一个重要结论:在相同的内存使用情况

最低0.47元/天 解锁文章
666

被折叠的 条评论
为什么被折叠?



