关于投机采样speculative decoding我就不特别详细解释了
我在这里简单描述一下
小模型生成了接下来的n个标记,然后在大模型上进行n个并行推理,具体为:Prompt,Prompt + ST1,Prompt + ST1 + ST2 … Prompt + ST1 + ST2 … + STn。
(ST = 推测标记)
需要了解整个详细背景的,请看我原来的文章
OpenAI,Claude,Gemini御三家线上推理的杀手锏(Speculative Decoding)
这玩意本来大家都在用,因为省算力,同时降延迟。
但是OpenAI真的是一个非常产品化的公司,这点毋庸置疑,它居然把这么后台的东西都能做到前台feature来...
这个东西叫Predicted Outputs
其实投机采样的本质就是大模型给你checking小模型你decoding的对不,我们都知道decoding在现在的Transformer的体系里面,它就没个并行,因为是自回归的机制,别说Vllm,这块要是还不理解,建议理解一下Kv-cache的加速机理。
对同等遗传序列由于小模型Parameter少,层少,深度潜,那前向肯定比大模型快,这毋庸置疑。
但是有没有我连小模型

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



