字节深夜开源 Seed-OSS:512K 超长上下文实力亮相,长度较主流模型劲增 4 倍!

字节跳动开源长上下文模型Seed-OSS-36B

字节 Seed 团队开源首个 LLM:Seed-OSS-36B。该模型具备长上下文、推理、智能体和通用能力,开发者友好,而且还主要针对国际化场景进行了优化。尽管仅用 12T 数据训练,依然在多项主流基准上表现优异,并以 Apache-2.0 许可证开放商用。

核心特性

  1. 灵活的思维预算控制:允许用户根据需求灵活调整推理长度,这一动态控制推理长度的能力提升了实际应用场景中的推理效率。例如,对于简单任务,可设置较短预算;复杂任务则可延长预算。
  2. 增强的推理能力:在推理任务上进行了专门优化,同时保持了均衡且出色的通用能力,在 BBH、AGIEval-en 等推理相关基准测试中成绩较好。
  3. 智能代理能力:在工具使用和问题解决等代理任务中表现卓越,如在 TAU1-Retail 等代理相关测试里有突出表现。
  4. 研究友好性:考虑到预训练中合成指令数据的加入可能影响训练后研究,团队发布了包含和不包含指令数据的两种预训练模型,为研究社区提供了更多样化的选择。
  5. 原生长上下文:原生支持高达 512K 的长上下文,在 RULER(128K)等长上下文测试中表现出色。

模型架构方面,Seed-OSS采用了成熟稳定的设计:

360亿参数的稠密模型(不是MoE),使用了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。整个模型有64层,隐藏层维度5120,词汇表大小155K。

参数详情
参数规模36B
注意力机制GQA
激活函数SwiGLU
层数64
QKV 头数80 / 8 / 8
头大小128
隐藏层大小5120
词汇表大小155K
上下文长度512K
RoPE 基础频率1e7

Seed-OSS-36B一大特色是支持用户设置thinking budget参数来灵活指定模型的思考预算,和谷歌的Gemini 2.5 Flash一样。下图展示了在不同任务下,随着思考预算变化的性能曲线。对于较简单的任务(如 IFEval),模型的链式思维(CoT)较短,分数在思考预算增加时会出现波动;而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的 CoT 更长,分数会随着思考预算的增加而提升。

eed-OSS-36B-Base

在多数基准测试中,预训练加入合成指令数据能提升性能,以下是部分关键基准测试结果:

  • 知识类:MMLU-Pro 得 65.1 分,MMLU 得 84.9 分,TriviaQA 得 82.1 分。
  • 推理类:BBH 得 87.7 分,AGIEval-en 得 70.7 分。
  • 数学类:GSM8K 得 90.8 分,MATH 得 81.7 分。
  • 编程类:MBPP 得 80.6 分,HumanEval 得 76.8 分 。
BenchmarkSeed1.6-BaseQwen3-30B-A3B-Base-2507*Qwen2.5-32B-Base*Seed-OSS-36B-Base
(w/ syn.)
Seed-OSS-36B-Base-woSyn
(w/o syn.)
Knowledge
MMLU-Pro7059.858.5 (55.1)65.160.4
MMLU88.882.784 (83.3)84.984.8
TriviaQA9176.27682.181.9
GPQA-D43.43729.331.735.2
SimpleQA17.17.26.15.87.4
Reasoning
BBH92.181.479.1 (84.5)87.787.2
AGIEval-en7866.465.670.770.1
Math
GSM8K93.18787.5 (92.9)90.890.3
MATH72.961.163.5 (57.7)81.761.3
Coding
MBPP83.678.877.8 (84.5)80.674.6
HumanEval7870.747.6 (58.5)76.875.6

同时也发布了不含合成指令数据的 Seed-OSS-36B-Base-woSyn 模型,其在部分测试中成绩与含合成数据模型接近,如 MMLU 得 84.8 分。

Seed-OSS-36B-Instruct

在与其他模型的对比中表现亮眼,部分关键结果如下:

  • 知识类:MMLU-Pro 得 82.7 分,MMLU 得 87.4 分。
  • 数学类:AIME24 得 91.7 分,AIME25 得 84.7 分,BeyondAIME 得 65 分。
  • 推理类:ArcAGI V2 得 40.6 分,KORBench 得 70.6 分。
  • 编程类:LiveCodeBench v6 得 67.4 分。
  • 指令遵循类:IFEval 得 85.8 分。
  • 代理类:TAU1-Retail 得 70.4 分,SWE-Bench Verified (OpenHands) 得 56 分 。
  • 多语言类:MMMLU 得 78.4 分。
  • 长上下文类:RULER (128K) 得 94.6 分。
  • 安全类:AIR-Bench 得 75.6 分。
BenchmarkSeed1.6-Thinking-0715OAI-OSS-20B*Qwen3-30B-A3B-Thinking-2507*Qwen3-32B*Gemma3-27BSeed-OSS-36B-Instruct
Knowledge
MMLU-Pro86.676.281.9 (80.9)81.867.582.7
MMLU90.681.7 (85.3)86.986.276.987.4
GPQA-D80.772.2 (71.5)71.4 (73.4)66.7 (68.4)42.471.4
SuperGPQA63.450.157.3 (56.8)49.3-55.7
SimpleQA23.76.723.68.6109.7
Math
AIME2490.392.7 (92.1)87.782.7 (81.4)-91.7
AIME258690.3 (91.7)81.3 (85)73.3 (72.9)-84.7
BeyondAIME60695629-65
Reasoning
ArcAGI V250.341.737.814.4-40.6
KORBench74.872.370.265.4-70.6
Coding
LiveCodeBench v6
(02/2025-05/2025)
66.863.860.3 (66)53.4-67.4
HLE13.912.7 (10.9)8.76.9-10.1
Instruction Following
IFEval86.392.888 (88.9)88.4 (85)90.485.8
Agent
TAU1-Retail63(54.8)58.7 (67.8)40.9-70.4
TAU1-Airline49(38)47 (48)38-46
SWE-Bench Verified
(OpenHands)
41.8(60.7)3123.4-56
SWE-Bench Verified
(AgentLess 4*10)
48.4-33.539.7-47
Multi-SWE-Bench17.7-9.57.7-17
Multilingualism
MMMLU84.377.4 (75.7)7979 (80.6)-78.4
Long Context
RULER
(128K)
94.578.794.577.5-94.6
Safety
AIR-Bench-----75.6

快速上手

1 、安装依赖

pip3 install -r requirements.txt
pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss

2、基础使用代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer
import os
import re

model_name_or_path = "ByteDance-Seed/Seed-OSS-36B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # 可根据需求使用 bfloat16 和/或移至 GPU
messages = [
    {"role": "user", "content": "How to make pasta?"},
]
tokenized_chat = tokenizer.apply_chat_template(
  messages, 
  tokenize=True, 
  add_generation_prompt=True, 
  return_tensors="pt", 
  thinking_budget=512  # 控制思维预算
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

Seed-OSS-36B 仅仅是字节跳动进军开源大模型领域的起点,后续其大概率还会推出更多开源模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值