Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

最新推荐文章于 2026-01-09 16:00:52 发布

原创最新推荐文章于 2026-01-09 16:00:52 发布 · 125 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 3 个专栏收录

1838 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Causal and Reasoning

139 篇文章

订阅专栏

100 篇文章

订阅专栏

在这里插入图片描述

一、文章主要内容

模型概述：提出Ring-linear模型系列（含Ring-mini-linear-2.0和Ring-flash-linear-2.0），采用线性注意力与softmax注意力融合的混合架构，上下文长度均支持128K，分别具备16B和104B总参数，聚焦长上下文推理场景。
核心优化：基于自研FP8算子库LingHe实现核融合、量化融合等优化，训练效率提升50%，推理成本较32B稠密模型降低至1/10，较初代Ring系列降低超50%。
训练流程：采用“持续预训练（4K→32K→128K上下文扩展）+ 监督微调（SFT）+ 强化学习（RL）”三阶段流程，通过训练-推理系统对齐解决RL训练崩溃问题。
性能表现：在数学推理、代码生成、通用推理等17个基准测试中，与同参数规模SOTA模型性能相当，长上下文场景下（>8K）预填充吞吐量超基线模型8倍，解码吞吐量超10倍。

二、核心创新点

系统探索混合线性注意力架构的预训练配置，确定最优层组规模与注意力比例（Ring-flash-linear-2.0为1:7，Ring-mini-linear-2.0为1:4），平衡效率与表达能力。
基础设

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。