A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens

828 篇文章

已下架不支持订阅

Chimera是一种新颖的推测抽样框架,通过轻量级草案模型利用先前生成的token预测后续单词,提高了大型语言模型的推理效率,平均延迟加速比达到2.7倍。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens》的翻译。

Chimera:一种融合所有token加速大型语言模型推理的无损解码方法

摘要

大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,它们的广泛应用受到资源密集型解码过程的阻碍。为了应对这一挑战,当前的方法已经结合了额外的解码头,以实现对多个后续token的并行预测,从而实现推理加速。然而,这些解码头的精度达不到自回归解码方法。
鉴于这些局限性,我们提出了Chimera,这是一个专门为推测采样设计的新颖框架。在这个框架内,我们引入了一个轻量级的草稿模型,该模型有效地利用先前生成的token来预测后续单词。为了确保准确性和效率,我们在轻量级草稿模型中提出了两种策略。首先,我们专注于在底层捕获短程依赖关系。其次,我们利用原始LLM中现成的表示。通过对Vicuna和LlaMA2系列的实证评估,Chimera展示了令人印象深刻的结果,与朴素自回归解码方法相比,平均延迟加速比达到2.7倍。这突出了我们提出的框架在解码过程中显著提高大型语言模型效率的潜力。

1 引言

2 相关工作

3 方法

4 实验

5 结论

本文介绍了Chimera,一种新的推测抽样框架。我们提出了一个轻量级的草稿模型,该模型利用先前生成的t

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值