Ring-mini-linear-2.0:混合架构重塑大模型效率与性能边界

【免费下载链接】Ring-mini-linear-2.0 【免费下载链接】Ring-mini-linear-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-mini-linear-2.0

📖 技术报告   |    🤗 Hugging Face   |   🤖 ModelScope

技术突破:线性注意力与稀疏激活的创新融合

今日,我们正式对外开源Ring-mini-linear-2.0大语言模型。这款模型在架构设计上实现了重大突破,通过线性注意力与标准注意力机制的混合部署,成功在模型性能与计算效率之间找到了黄金平衡点。

作为Ling 2.0系列技术的延伸,该模型继承了高效的混合专家(MoE)架构设计,并通过两项关键优化实现了性能跃升:一是将专家激活比例精确控制在1/32,二是引入MTP(Multi-Task Processing)层增强任务适应性。这种设计使模型在总参数量达164亿的情况下,仅需激活16亿参数即可达到传统80亿参数稠密模型的性能水平。值得注意的是,该模型基于Ling-mini-base-2.0进行迁移学习,在额外6000亿tokens的训练数据上完成持续优化。

在实际性能表现上,这款混合线性模型不仅整体性能与同量级标准注意力模型(如Ring-mini-2)持平,更在多项高难度基准测试中超越了同类开源MoE模型与稠密模型。特别值得关注的是,通过YaRN技术将上下文窗口外推4倍,模型实现了512k超长上下文处理能力,这使其在长文本输入输出任务中展现出显著的速度优势。

混合线性模型架构图 上图清晰展示了Ring-mini-linear-2.0的混合架构设计,其中线性注意力模块与标准注意力模块并行工作,通过动态路由机制实现计算资源的智能分配。这种架构既保留了标准注意力在复杂推理任务中的优势,又通过线性注意力实现了计算复杂度的有效控制,为大规模部署提供了硬件友好的解决方案。

权威评测:跨领域推理能力的全面验证

为系统验证模型的推理能力,研究团队选取了数学、代码、科学三大领域的5项高难度推理基准,将Ring-mini-linear-2.0与Ring-mini-2.0、Qwen3-8B-thinking、GPT-OSS-20B-Medium三款标杆模型进行横向对比。测试结果有力证明了混合线性架构在保持效率优势的同时,能够达到与softmax注意力模型相当的推理性能。

模型性能对比图 该对比图表展示了各模型在不同任务类型上的得分分布,Ring-mini-linear-2.0在数学推理和代码生成任务中表现尤为突出,与参数量更大的GPT-OSS-20B-Medium相比差距不足3%。这种"小激活、高性能"的特性,为资源受限场景下的智能应用开发提供了新的可能性。

架构优势:线性注意力驱动的极速推理体验

Ring-mini-linear-2.0之所以能实现性能与效率的双赢,核心得益于其独特的技术组合:混合注意力机制与高度稀疏的MoE架构。这种设计使模型实现了接近线性的时间复杂度和常数级的空间复杂度,从而在推理效率上实现了质的飞跃。为直观展示这一优势,研究团队选取了当前市场上性能相近的竞品模型进行了系统的效率对比测试。

Ring-mini-linear-2.0 预填充吞吐量图 预填充吞吐量测试显示,在处理长文本输入时,Ring-mini-linear-2.0的性能优势随输入长度增加而扩大,当上下文超过16k tokens时,其吞吐量达到同类模型的1.8倍。这一特性使其特别适合处理文档摘要、代码库分析等长文本理解任务。

Ring-mini-linear-2.0 解码吞吐量图 解码吞吐量对比则表明,在生成任务中,模型保持了稳定的高性能表现,即使在生成10k tokens以上的长文本时,吞吐量衰减率仍控制在15%以内,远低于同类模型30%以上的衰减水平。这种高效的长文本生成能力,使其在报告自动生成、小说创作等场景中具有显著应用价值。

快速上手指南:多框架部署方案详解

环境依赖准备

使用前需安装以下核心依赖包:

pip install flash-linear-attention==0.3.2
pip install transformers==4.56.1

Hugging Face Transformers部署

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "inclusionAI/Ring-mini-linear-2.0"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_name)


prompts = [
    "Give me a short introduction to large language models."
]
input_texts = []
for prompt in prompts:
    messages = [
        {"role": "user", "content": prompt}
    ]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    input_texts.append(text)

print(input_texts)

model_inputs = tokenizer(input_texts, return_tensors="pt", return_token_type_ids=False, padding=True, padding_side='left').to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=8192,
    do_sample=False,
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

responses = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)

print("*" * 30)
print(responses)
print("*" * 30)

SGLang高效部署方案

环境配置

研究团队已向SGLang官方提交集成PR(#10917),该PR将在近期合并至主分支。目前可通过以下步骤准备运行环境:首先安装社区版SGLang及依赖包:

pip install sglang==0.5.2 sgl-kernel==0.3.9.post2 vllm==0.10.2 torch==2.8.0 torchvision==0.23.0 torchao

然后安装定制优化的SGLang wheel包:

pip install https://media.githubusercontent.com/media/inclusionAI/Ring-V2/refs/heads/main/hybrid_linear/whls/sglang-0.5.2-py3-none-any.whl --no-deps --force-reinstall
推理服务启动

SGLang当前支持BF16和FP8两种精度模型,具体取决于${MODEL_PATH}中模型文件的 dtype设置,两种精度的启动命令相同:

  • 启动服务端:
python -m sglang.launch_server \
    --model-path <model_path> \
    --trust-remote-code \
    --tp-size 1 \
    --disable-radix-cache \
    --json-model-override-args "{\"linear_backend\": \"seg_la\"}"
  • 客户端请求:
curl -s http://localhost:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "temperature": 0.6, "messages": [{"role": "user", "content": "Give me a short introduction to large language models."}]}'

更多使用方法可参考SGLang官方文档

vLLM高性能部署方案

环境配置

由于相关PR尚未合并至vLLM主分支,目前需通过以下步骤准备环境:

首先创建Python 3.10环境并安装CUDA 12.8:

conda create -n vllm python=3.10
conda activate vllm

然后安装定制优化的vLLM wheel包:

pip install https://media.githubusercontent.com/media/zheyishine/vllm_whl/refs/heads/main/vllm-0.8.5.post2.dev28%2Bgd327eed71.cu128-cp310-cp310-linux_x86_64.whl --force-reinstall

最后安装兼容版本的transformers:

pip install transformers==4.51.1 
离线推理
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

if __name__ == '__main__':
    tokenizer = AutoTokenizer.from_pretrained("inclusionAI/Ring-mini-linear-2.0", trust_remote_code=True)
    
    sampling_params = SamplingParams(temperature=0.6, top_p=1.0, max_tokens=1024)

    # 无并发场景下使用`max_num_seqs=1`
    llm = LLM(model="inclusionAI/Ring-mini-linear-2.0", dtype='auto', enable_prefix_caching=False, max_num_seqs=128)
    
    
    prompt = "Give me a short introduction to large language models."
    messages = [
        {"role": "user", "content": prompt}
    ]
    
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    outputs = llm.generate([text], sampling_params)
    for output in outputs:
        print(output.outputs[0].text)
在线推理服务
vllm serve inclusionAI/Ring-mini-linear-2.0 \
              --tensor-parallel-size 1 \
              --pipeline-parallel-size 1 \
              --gpu-memory-utilization 0.90 \
              --max-num-seqs 128 \
              --no-enable-prefix-caching
              --api-key your-api-key

学术引用规范

@misc{lingteam2025attentionmattersefficienthybrid,
      title={Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning}, 
      author={Ling Team and Bin Han and Caizhi Tang and Chen Liang and Donghao Zhang and Fan Yuan and Feng Zhu and Jie Gao and Jingyu Hu and Longfei Li and Meng Li and Mingyang Zhang and Peijie Jiang and Peng Jiao and Qian Zhao and Qingyuan Yang and Wenbo Shen and Xinxing Yang and Yalin Zhang and Yankun Ren and Yao Zhao and Yibo Cao and Yixuan Sun and Yue Zhang and Yuchen Fang and Zibin Lin and Zixuan Cheng and Jun Zhou},
      year={2025},
      eprint={2510.19338},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2510.19338}, 
}

技术展望:混合架构引领大模型效率革命

Ring-mini-linear-2.0的开源发布,标志着混合注意力架构在大语言模型领域的成熟应用。该模型通过16亿激活参数实现80亿稠密模型性能的技术突破,为行业提供了"以小博大"的高效解决方案。特别值得关注的是512k超长上下文能力与线性时间复杂度的结合,这一特性使模型在法律文档分析、医学记录处理、代码库理解等专业领域展现出巨大应用潜力。

未来,研发团队将重点推进三项技术演进:一是进一步优化专家路由算法,目标将专家激活比例从1/32降至1/64;二是探索多模态线性注意力机制,实现图像、音频等多模态数据的高效处理;三是开发自适应上下文压缩技术,使模型能在有限资源下处理超长文本。这些技术创新有望推动大语言模型向"更小、更快、更强"的方向持续发展,为AI普惠化进程提供坚实的技术支撑。

【免费下载链接】Ring-mini-linear-2.0 【免费下载链接】Ring-mini-linear-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-mini-linear-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值