字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍

字节Seed扩散模型:代码生成新突破

扩散模型写代码,不仅像开了倍速,改起来还特别灵活!

字节Seed最新发布扩散语言模型Seed Diffusion Preview,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技术,在推理速度上表现出色。

它的代码推理速度能达到2146 tokens/s,比同类的Mercury和Gemini Diffusion等模型快不少,同时比同等规模的自回归模型快5.4倍,并且在代码编辑任务中更具优势。

Seed Diffusion Preview以结构化的代码生成为实验领域,系统性地验证离散扩散技术路线作为下一代语言模型基础框架的可行性。

下面介绍它的具体技术细节。

核心是两阶段训练学习

自回归模型存在串行解码延迟瓶颈,理论上,扩散模型的并行生成潜力和整体性生成的优势可以解决自回归模型推理速度局限这一痛点。

但理论优势与实际效果还是有差距,离散扩散模型在语言任务中的大规模部署仍面临两大核心瓶颈:归纳偏置冲突和推理效率瓶颈。

为解决上述问题,Seed Diffusion Preview采用了四项关键的技术创新。

两阶段训练

两阶段训练是模型的核心训练策略。

这是针对离散扩散过程设计的渐进式训练方案,两个阶段分别采用不同的corruption过程(即对原始数据的扰动方式)。通过分阶段优化模型对token的理解与生成能力,平衡训练效率与生成质量。

第一个阶段是基于掩码的扩散训练,学习上下文补全,占整个训练步骤的80%。

目标是将原始序列中的token替换为特殊的[MASK]标记,让模型学习从部分被掩盖的序列中恢复原始token,以此奠定基础的语言建模能力。

第二个阶段是基于编辑的扩散训练,增强全局的合理性。

掩码训练可能带来“捷径依赖”的问题——优先利用未掩码token的局部关联性进行恢复,而非理解整

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值