本文是LLM系列文章,针对《Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING》的翻译。
使用LOOKAHEAD解码打破LLM推理的顺序依赖性
摘要
大型语言模型(LLM)的自回归解码是内存带宽受限的,导致高延迟和现代加速器并行处理能力的严重浪费。现有的加速LLM解码的方法通常需要一个草稿模型(例如推测解码),这很难获得,也无法推广。本文介绍了LOOKAHEAD DECODING,这是一种精确的并行解码算法,可以加速LLM解码,而不需要辅助模型或数据存储。它允许按步骤交易日志(FLOP)来减少总解码步骤的数量,在单个或多个现代加速器上更具并行性,并且与并发内存高效注意力(例如FlashAttention)兼容。我们实现的LOOKAHEAD DECODING可以在MT台上将自回归解码速度提高1.8倍,在代码完成任务中在多个GPU上具有很强的扩展性,可以提高4倍。我们的代码可在https://github.com/hao-ai-lab/LookaheadDecoding上可用。