A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens

UnknownBody

于 2024-03-14 19:47:09 发布

阅读量85

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Inference 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136719952

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

48 篇文章

订阅专栏

Chimera是一种新颖的推测抽样框架，通过轻量级草案模型利用先前生成的token预测后续单词，提高了大型语言模型的推理效率，平均延迟加速比达到2.7倍。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens》的翻译。

Chimera：一种融合所有token加速大型语言模型推理的无损解码方法

摘要
1 引言
2 相关工作
3 方法
4 实验
5 结论
局限性

摘要

大型语言模型（LLM）已经在各种任务中展示了非凡的能力。然而，它们的广泛应用受到资源密集型解码过程的阻碍。为了应对这一挑战，当前的方法已经结合了额外的解码头，以实现对多个后续token的并行预测，从而实现推理加速。然而，这些解码头的精度达不到自回归解码方法。
鉴于这些局限性，我们提出了Chimera，这是一个专门为推测采样设计的新颖框架。在这个框架内，我们引入了一个轻量级的草稿模型，该模型有效地利用先前生成的token来预测后续单词。为了确保准确性和效率，我们在轻量级草稿模型中提出了两种策略。首先，我们专注于在底层捕获短程依赖关系。其次，我们利用原始LLM中现成的表示。通过对Vicuna和LlaMA2系列的实证评估，Chimera展示了令人印象深刻的结果，与朴素自回归解码方法相比，平均延迟加速比达到2.7倍。这突出了我们提出的框架在解码过程中显著提高大型语言模型效率的潜力。

1 引言

2 相关工作

3 方法

4 实验

5 结论

本文介绍了Chimera，一种新的推测抽样框架。我们提出了一个轻量级的草稿模型，该模型利用先前生成的t

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。