投机采样的显性化——OpenAI新feature:Predicted Outputs

关于投机采样speculative decoding我就不特别详细解释了

我在这里简单描述一下

小模型生成了接下来的n个标记,然后在大模型上进行n个并行推理,具体为:Prompt,Prompt + ST1,Prompt + ST1 + ST2 … Prompt + ST1 + ST2 … + STn。

(ST = 推测标记)

需要了解整个详细背景的,请看我原来的文章

OpenAI,Claude,Gemini御三家线上推理的杀手锏(Speculative Decoding)

这玩意本来大家都在用,因为省算力,同时降延迟。

但是OpenAI真的是一个非常产品化的公司,这点毋庸置疑,它居然把这么后台的东西都能做到前台feature来...

这个东西叫Predicted Outputs

其实投机采样的本质就是大模型给你checking小模型你decoding的对不,我们都知道decoding在现在的Transformer的体系里面,它就没个并行,因为是自回归的机制,别说Vllm,这块要是还不理解,建议理解一下Kv-cache的加速机理。

对同等遗传序列由于小模型Parameter少,层少,深度潜,那前向肯定比大模型快,这毋庸置疑。

但是有没有我连小模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值