本文是LLM系列文章,针对《Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens》的翻译。
摘要
大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,它们的广泛应用受到资源密集型解码过程的阻碍。为了应对这一挑战,当前的方法已经结合了额外的解码头,以实现对多个后续token的并行预测,从而实现推理加速。然而,这些解码头的精度达不到自回归解码方法。
鉴于这些局限性,我们提出了Chimera,这是一个专门为推测采样设计的新颖框架。在这个框架内,我们引入了一个轻量级的草稿模型,该模型有效地利用先前生成的token来预测后续单词。为了确保准确性和效率,我们在轻量级草稿模型中提出了两种策略。首先,我们专注于在底层捕获短程依赖关系。其次,我们利用原始LLM中现成的表示。通过对Vicuna和LlaMA2系列的实证评估,Chimera展示了令人印象深刻的结果,与朴素自回归解码方法相比,平均延迟加速比达到2.7倍。这突出了我们提出的框架在解码过程中显著提高大型语言模型效率的潜力。
1 引言
2 相关工作
3 方法
4 实验
5 结论
本文介绍了Chimera,一种新的推测抽样框架。我们提出了一个轻量级的草稿模型,该模型利用先前生成的t