当整个AI社区还在为128K上下文窗口欢呼时,字节跳动Seed团队突然放出了一个“重磅炸弹”——Seed-OSS-36B,一个支持512K超长上下文的开源大模型。这一举动不仅让国内开源社区为之振奋,更是在全球AI领域掀起了一阵讨论热潮。

就在深夜,字节跳动Seed团队正式在Hugging Face和GitHub上发布了这个系列模型,采用Apache-2.0开源协议,可以免费用于学术研究和商业部署。这不禁让人想起OpenAI此前发布的GPT-OSS系列,Seed-OSS的命名方式,明显是在向OpenAI“致敬”。
512K上下文:碾压主流4倍长度
要说Seed-OSS最让人眼前一亮的特性,那必须是原生512K的超长上下文。目前主流的开源模型,比如DeepSeek V3.1的上下文窗口是128K,而Seed-OSS直接翻了4倍。
这个512K是在预训练阶段就构建好的,不是后期通过插值等方法硬撑上去的。
这意味着法律文档审查、长篇报告分析、复杂代码库理解等需要处理海量信息的专业场景,Seed-OSS都能轻松拿下。想象一下,一个模型能够一次性处理相当于1600页文本的内容,这将为AI应用带来怎样的可能性?
可控思维预算:让AI“思考”更智能
Seed-OSS的另一大创新是引入了“思考预算"(Thinking Budget)机制。通过设定一个token数量,你就能控制模型思考的深度。
比如你设置512个token的预算,模型在推理过程中会这样工作:
好的,让我一步步来解决这个问题。题目说的是… 我已经使用了129个token,还剩383个token可用。 使用幂法则,我们可以… 我已经使用了258个token,还剩254个token可用。 另外,记住… 我已经耗尽了token预算,现在开始给出答案。
对于简单任务,可以设置较小的预算让模型快速响应;对于复杂的数学推理或代码生成,你可以给更多预算让它深思熟虑。字节跳动建议使用512的整数倍(比如512、1K、2K、4K、8K或16K),因为模型在这些区间上经过了大量训练。
技术架构:成熟稳定的设计
模型架构方面,Seed-OSS采用了成熟稳

最低0.47元/天 解锁文章
479

被折叠的 条评论
为什么被折叠?



