Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING

本文是LLM系列文章,针对《Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING》的翻译。

摘要

大型语言模型(LLM)的自回归解码是内存带宽受限的,导致高延迟和现代加速器并行处理能力的严重浪费。现有的加速LLM解码的方法通常需要一个草稿模型(例如推测解码),这很难获得,也无法推广。本文介绍了LOOKAHEAD DECODING,这是一种精确的并行解码算法,可以加速LLM解码,而不需要辅助模型或数据存储。它允许按步骤交易日志(FLOP)来减少总解码步骤的数量,在单个或多个现代加速器上更具并行性,并且与并发内存高效注意力(例如FlashAttention)兼容。我们实现的LOOKAHEAD DECODING可以在MT台上将自回归解码速度提高1.8倍,在代码完成任务中在多个GPU上具有很强的扩展性,可以提高4倍。我们的代码可在https://github.com/hao-ai-lab/LookaheadDecoding上可用。

1 引言

2 背景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值