本文是LLM系列文章,针对《Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding》的翻译。
摘要
为了减轻大型语言模型(LLM)中自回归解码产生的高推理延迟,推测解码已成为LLM推理的一种新的解码范式。在每个解码步骤中,该方法首先高效地起草几个未来的token,然后并行验证它们。与自回归解码不同,推测解码便于每一步同时解码多个token,从而加速推理。本文对这种有前景的解码范式进行了全面的概述和分析。我们首先提供了推测解码的正式定义和公式。然后,我们就起草人的选择和核查战略等关键方面组织深入讨论。此外,我们还对第三方测试环境下的领先方法进行了比较分析。我们的目标是将这项工作作为进一步研究推测解码的催化剂,最终有助于更有效的LLM推理。