Ring-flash-linear-2.0:新一代混合架构大模型开源,重新定义长文本推理效率
📖 技术报告 | 🤗 Hugging Face | 🤖 ModelScope
模型概述:融合线性与稀疏优势的架构突破
今日,我们正式对外发布Ring-flash-linear-2.0开源大模型,这是继Ling 2.0系列之后在高效推理领域的又一重要突破。该模型创新性地采用线性注意力与标准注意力混合架构,在保持400亿参数规模模型性能的同时,仅需激活61亿参数即可运行,完美实现了高性能与高效率的平衡。
作为Ling-flash-base-2.0的升级版,Ring-flash-linear-2.0在原有基础上新增1万亿tokens的训练数据,进一步强化了复杂任务处理能力。特别值得关注的是,该模型支持128k超长上下文窗口,在处理学术论文、代码库解析等长文本场景时,展现出比同类模型更快的响应速度和更高的生成精度。
如上图所示,该架构图清晰展示了线性注意力模块与标准注意力模块的协同工作机制。这种分层设计使模型能够动态分配计算资源,在处理局部语义时启用高效线性层,在全局推理时激活标准注意力,为用户提供兼顾速度与精度的AI服务。
多维度性能评测:推理能力的全面跃升
为客观验证Ring-flash-linear-2.0的综合性能,我们选取当前主流开源模型及闭源API作为对照,在数学推理、代码生成、科学问答等多个挑战性基准测试中进行了全面评估,并特别加入创意写作任务(Creative Writing v3)以检验模型的自然语言生成能力。
评估结果显示,Ring-flash-linear-2.0在保持推理效率优势的同时,各项任务性能均达到或超越同量级模型水平。尤其在需要复杂逻辑链的数学推理任务中,模型展现出令人印象深刻的问题拆解能力,这得益于其优化的注意力分配机制和大规模训练数据带来的知识积累。
该图表横向对比了不同模型在多任务基准测试中的综合得分。从数据分布可以看出,Ring-flash-linear-2.0在保持轻量化部署优势的同时,实现了与更大规模模型接近的推理性能,为资源受限场景提供了高效解决方案。
此图聚焦展示了各模型在长文本处理任务中的表现差异。Ring-flash-linear-2.0凭借128k上下文窗口优势,在需要跨段落关联理解的任务中明显领先,这一特性使其特别适合法律文档分析、医学报告解读等专业领域应用。
技术解析:线性注意力与稀疏激活的效率革命
Ring-flash-linear-2.0之所以能实现性能与效率的双重突破,核心在于其独创的混合注意力机制与高度稀疏的MoE(Mixture of Experts)架构设计。这种组合策略使模型达到近线性时间复杂度和常数空间复杂度,彻底改变了传统大模型推理时的资源消耗模式。
为直观展示这一技术优势,我们在相同硬件环境下对比了Ring-flash-linear-2.0与行业标杆模型的推理效率。测试结果表明,无论是在预填充阶段还是解码阶段,新模型均展现出显著的速度优势,尤其在处理长序列输入时,这种差距会随着文本长度增加而进一步扩大。
该图表记录了不同输入长度下的预填充吞吐量表现。Ring-flash-linear-2.0呈现出的近似线性增长曲线,表明其线性注意力机制有效规避了传统模型的计算瓶颈,使长文本加载速度提升3-5倍,极大改善了用户交互体验。
此图对比了各模型在生成阶段的token输出速度。Ring-flash-linear-2.0高达1/32的专家激活率,使其在保持输出质量的同时,实现了远超同级别模型的解码效率,这对于实时对话系统、智能客服等交互场景具有重要实用价值。
快速上手指南:多框架部署方案
环境依赖安装
使用前需确保安装以下依赖包:
pip install flash-linear-attention==0.3.2
pip install transformers==4.56.1
Hugging Face Transformers部署
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "inclusionAI/Ring-flash-linear-2.0"
model = AutoModelForCausalLM.from_pretrained(
model_name,
dtype="auto",
device_map="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompts = [
"请简要介绍大语言模型的基本原理。"
]
input_texts = []
for prompt in prompts:
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
input_texts.append(text)
print(input_texts)
model_inputs = tokenizer(input_texts, return_tensors="pt", return_token_type_ids=False, padding=True, padding_side='left').to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=8192,
do_sample=False,
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
responses = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
print("*" * 30)
print(responses)
print("*" * 30)
SGLang高效部署
环境准备
我们已向SGLang官方提交集成PR(#10917),近期将完成合并。当前可通过以下步骤准备环境:
pip install sglang==0.5.2 sgl-kernel==0.3.9.post2 vllm==0.10.2 torch==2.8.0 torchvision==0.23.0 torchao
pip install https://media.githubusercontent.com/media/inclusionAI/Ring-V2/refs/heads/main/hybrid_linear/whls/sglang-0.5.2-py3-none-any.whl --no-deps --force-reinstall
推理服务启动
SGLang同时支持BF16和FP8两种精度模式,部署命令如下:
- 启动服务端:
python -m sglang.launch_server \
--model-path inclusionAI/Ring-flash-linear-2.0 \
--trust-remote-code \
--tp-size 4 \
--disable-radix-cache \
--tool-call-parser qwen25 \
--json-model-override-args "{\"linear_backend\": \"seg_la\"}"
- 客户端请求:
curl -s http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "auto", "temperature": 0.6, "messages": [{"role": "user", "content": "请简要介绍大语言模型的基本原理。"}]}'
vLLM高性能部署
环境配置
由于vLLM官方集成PR暂未合并,需通过以下步骤安装定制版本:
conda create -n vllm python=3.10
conda activate vllm
pip install https://media.githubusercontent.com/media/zheyishine/vllm_whl/refs/heads/main/vllm-0.8.5.post2.dev28%2Bgd327eed71.cu128-cp310-cp310-linux_x86_64.whl --force-reinstall
pip install transformers==4.51.1
离线推理示例
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
if __name__ == '__main__':
tokenizer = AutoTokenizer.from_pretrained("inclusionAI/Ring-flash-linear-2.0", trust_remote_code=True)
sampling_params = SamplingParams(temperature=0.6, top_p=1.0, max_tokens=16384)
# 无并发场景设置`max_num_seqs=1`
llm = LLM(model="inclusionAI/Ring-flash-linear-2.0", dtype='auto', enable_prefix_caching=False, max_num_seqs=128)
prompt = "请简要介绍大语言模型的基本原理。"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
outputs = llm.generate([text], sampling_params)
for output in outputs:
print(output.outputs[0].text)
在线服务部署
vllm serve inclusionAI/Ring-flash-linear-2.0 \
--tensor-parallel-size 2 \
--pipeline-parallel-size 1 \
--gpu-memory-utilization 0.90 \
--max-num-seqs 128 \
--no-enable-prefix-caching
--api-key your-api-key
学术引用
@misc{lingteam2025attentionmattersefficienthybrid,
title={Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning},
author={Ling Team and Bin Han and Caizhi Tang and Chen Liang and Donghao Zhang and Fan Yuan and Feng Zhu and Jie Gao and Jingyu Hu and Longfei Li and Meng Li and Mingyang Zhang and Peijie Jiang and Peng Jiao and Qian Zhao and Qingyuan Yang and Wenbo Shen and Xinxing Yang and Yalin Zhang and Yankun Ren and Yao Zhao and Yibo Cao and Yixuan Sun and Yue Zhang and Yuchen Fang and Zibin Lin and Zixuan Cheng and Jun Zhou},
year={2025},
eprint={2510.19338},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2510.19338},
}
技术展望:高效AI的未来方向
Ring-flash-linear-2.0的开源发布,标志着混合注意力架构在实际应用中迈出了关键一步。通过将线性注意力的计算效率与标准注意力的推理能力相结合,我们为大模型的资源优化提供了新的技术路径。未来,团队将重点探索以下方向:一是进一步提升专家选择机制的动态适应性,二是扩展多模态理解能力,三是优化移动端部署的轻量化方案。
该模型特别适合需要高并发推理的企业级应用场景,如智能客服系统、代码辅助开发工具、学术研究助手等。我们相信,Ring-flash-linear-2.0的开源将推动AI技术在资源受限环境下的普及应用,为开发者社区提供构建高效智能系统的新选择。欢迎广大研究者和开发者基于此模型进行二次创新,共同推动大语言模型技术的可持续发展。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



