本文是LLM系列文章,针对《SAM Decoding: Speculative Decoding via Suffix Automaton》的翻译。
摘要
大型语言模型(LLM)通过将任务统一到文本生成中,彻底改变了自然语言处理,但它们的大参数大小和自回归特性限制了推理速度。SAM解码通过引入一种新的基于检索的推测解码方法来解决这个问题,该方法使用后缀自动机来高效准确地生成草稿。与现有方法使用的n元语法匹配不同,SAM解码在生成文本和文本语料库时找到最长的后缀匹配,每生成一步的平均时间复杂度为 O ( 1 ) \mathcal{O}(1)