Ring-flash-linear-2.0:新一代混合架构大模型开源,兼顾性能与效率突破

Ring-flash-linear-2.0:新一代混合架构大模型开源,兼顾性能与效率突破

【免费下载链接】Ring-flash-linear-2.0 【免费下载链接】Ring-flash-linear-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-linear-2.0

📖 技术报告   |   🤗 Hugging Face   |   🤖 ModelScope

模型发布:开启混合架构新篇章

我们荣幸地宣布Ring-flash-linear-2.0正式开源!作为Ling 2.0系列的重要升级版本,该模型延续了线性注意力与标准注意力融合的混合架构设计,在保持高性能的同时实现了效率的跨越式提升。通过创新性地将稀疏专家混合(MoE)设计与1/32专家激活率、MTP层等优化技术相结合,Ring-flash-linear-2.0仅需激活61亿参数即可达到400亿参数量稠密模型的性能水平。值得关注的是,该模型基于Ling-flash-base-2.0进一步训练了1万亿 tokens 语料,在长文本处理场景下展现出128k上下文窗口的强大能力,推理速度与精度均实现显著突破。

混合线性模型架构图 如上图所示,该架构图清晰展示了线性注意力与标准注意力的混合工作机制。这种分层设计使模型能够动态平衡计算效率与语义理解深度,为长文本处理任务提供了底层技术支撑。读者可通过架构细节理解模型在性能与效率上取得突破的核心原因。

性能评估:跨领域推理能力全面验证

为充分验证模型综合能力,我们选取了当前主流的开源推理模型及闭源API进行多维度对比测试。评估覆盖数学推理、代码生成、科学问答等多个专业领域,并特别加入创意写作任务(Creative Writing v3)以考察模型的语言生成能力。实验结果表明,Ring-flash-linear-2.0在各测试维度均达到行业领先水平,尤其在复杂逻辑推理与长文本生成任务中表现突出。

模型性能对比图1 此图表展示了模型在数学与科学推理任务中的表现,通过与同类模型的得分对比,直观呈现了Ring-flash-linear-2.0在逻辑分析领域的竞争优势。这些量化数据为科研人员和企业用户提供了可靠的选型参考,帮助判断模型是否满足专业场景需求。

模型性能对比图2 该图聚焦于代码生成与创意写作任务的评估结果,显示模型在结构化输出与自由创作两类截然不同的任务中均保持优异表现。这种全场景适应性证明了混合架构在平衡精度与灵活性方面的独特价值,为多模态应用开发提供了新思路。

技术突破:线性注意力与稀疏激活的效率革命

Ring-flash-linear-2.0的核心优势源于其创新的混合注意力机制与高度稀疏的MoE架构。这一组合使模型实现了接近线性的时间复杂度和恒定的空间复杂度,在长文本处理时展现出卓越的推理效率。为量化这一优势,我们与同量级或同性能水平的顶尖模型进行了对比测试,结果显示Ring-flash-linear-2.0在预填充吞吐量和解码速度上均处于领先地位。

Ring-flash-linear-2.0预填充吞吐量图 图表展示了不同输入长度下的预填充吞吐量对比,清晰显示Ring-flash-linear-2.0随文本长度增加仍能保持高效处理能力。这一特性使其特别适合处理书籍、论文等超长文本输入场景,为企业级文档处理应用提供了性能保障。

Ring-flash-linear-2.0解码吞吐量图 此图对比了模型在生成阶段的解码速度表现,Ring-flash-linear-2.0的高吞吐量特性使其能快速生成大量文本内容。对于需要实时响应的对话系统和内容创作工具而言,这种效率提升直接转化为更流畅的用户体验和更低的计算成本。

快速上手:多框架部署指南

环境准备

首先安装必要的依赖包:

pip install flash-linear-attention==0.3.2
pip install transformers==4.56.1

🤗 Hugging Face Transformers部署

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "inclusionAI/Ring-flash-linear-2.0"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_name)


prompts = [
    "请简要介绍大语言模型的基本原理。"
]
input_texts = []
for prompt in prompts:
    messages = [
        {"role": "user", "content": prompt}
    ]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    input_texts.append(text)

model_inputs = tokenizer(input_texts, return_tensors="pt", return_token_type_ids=False, padding=True, padding_side='left').to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=8192,
    do_sample=False,
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

responses = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)

print("=" * 50)
print(responses[0])
print("=" * 50)

🚀 SGLang部署方案

环境配置

SGLang官方集成正在进行中,目前可通过以下步骤准备环境:

pip install sglang==0.5.2 sgl-kernel==0.3.9.post2 vllm==0.10.2 torch==2.8.0 torchvision==0.23.0 torchao
pip install https://media.githubusercontent.com/media/inclusionAI/Ring-V2/refs/heads/main/hybrid_linear/whls/sglang-0.5.2-py3-none-any.whl --no-deps --force-reinstall
服务启动与调用
  • 启动服务:
python -m sglang.launch_server \
    --model-path inclusionAI/Ring-flash-linear-2.0 \
    --trust-remote-code \
    --tp-size 4 \
    --disable-radix-cache \
    --tool-call-parser qwen25 \
    --json-model-override-args '{"linear_backend": "seg_la"}'
  • 客户端调用:
curl -s http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "temperature": 0.6, "messages": [{"role": "user", "content": "请简要介绍大语言模型的基本原理。"}]}'

🚀 vLLM部署方案

环境配置

目前vLLM社区版暂未合并支持代码,需通过以下步骤安装定制版本:

conda create -n vllm python=3.10
conda activate vllm
pip install https://media.githubusercontent.com/media/zheyishine/vllm_whl/refs/heads/main/vllm-0.8.5.post2.dev28%2Bgd327eed71.cu128-cp310-cp310-linux_x86_64.whl --force-reinstall
pip install transformers==4.51.1 
推理代码示例
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

tokenizer = AutoTokenizer.from_pretrained("inclusionAI/Ring-flash-linear-2.0", trust_remote_code=True)
sampling_params = SamplingParams(temperature=0.6, top_p=1.0, max_tokens=16384)

llm = LLM(model="inclusionAI/Ring-flash-linear-2.0", dtype='auto', enable_prefix_caching=False, max_num_seqs=128)

prompt = "请简要介绍大语言模型的基本原理。"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = llm.generate([text], sampling_params)

for output in outputs:
    print(output.outputs[0].text)

引用方式

@misc{lingteam2025attentionmattersefficienthybrid,
      title={Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning}, 
      author={Ling Team and Bin Han and Caizhi Tang and Chen Liang and Donghao Zhang and Fan Yuan and Feng Zhu and Jie Gao and Jingyu Hu and Longfei Li and Meng Li and Mingyang Zhang and Peijie Jiang and Peng Jiao and Qian Zhao and Qingyuan Yang and Wenbo Shen and Xinxing Yang and Yalin Zhang and Yankun Ren and Yao Zhao and Yibo Cao and Yixuan Sun and Yue Zhang and Yuchen Fang and Zibin Lin and Zixuan Cheng and Jun Zhou},
      year={2025},
      eprint={2510.19338},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2510.19338}, 
}

技术展望:混合架构引领效率革命

Ring-flash-linear-2.0的开源发布标志着大语言模型在效率优化领域迈出了关键一步。混合注意力架构与稀疏激活技术的结合,为解决"性能-效率"悖论提供了新范式。未来,团队将持续优化线性注意力的计算精度,探索更大规模的专家混合设计,并进一步拓展模型在多模态理解、工具调用等场景的应用能力。我们相信,这种兼顾性能与效率的技术路线,将成为下一代大语言模型的主流发展方向,推动AI技术在更多实际场景中实现低成本落地。

【免费下载链接】Ring-flash-linear-2.0 【免费下载链接】Ring-flash-linear-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-linear-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值