EMNLP2025 | 突破LLM推理瓶颈：单序列并行解码加速方法实现解码速度提升100%

最新推荐文章于 2025-11-27 14:26:48 发布

原创

最新推荐文章于 2025-11-27 14:26:48 发布 · 723 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #开源 #自然语言处理

EMNLP2025 | 突破LLM推理瓶颈：单序列并行解码加速方法实现解码速度提升100%

【EMNLP论文速读】本论文旨在提出一种名为“单序列并行解码”（Parallel Decoding in One Sequence）的创新方法，通过一个特制的“树状”注意力掩码（Tree-like Attention Mask）在单个序列内实现多分支并行解码，以解决大型语言模型在处理可并行的推理任务 (Parallelizable Reasoning Tasks) 时因自回归机制导致的解码速度慢、计算与内存资源消耗大的核心瓶颈问题。

大型语言模型（LLM）在处理复杂推理任务时，其逐词元生成的自回归机制往往导致计算成本高昂和延迟过长，这一直是业界的核心痛点。针对该问题，OpenCSG算法团队的成员 Yijiong Yu 提出了一种名为“单序列并行解码”（Parallel Decoding in One Sequence）的创新解码加速方法。该方法的核心思想是利用特定任务中固有的可并行性，在不增加额外内存消耗和避免重置KV缓存的前提下，通过一个特制的注意力掩码（Attention Mask）在单个序列中一次性解码多个并行推理分支的多个词元（Token）。该方法通过利用任务中固有的可并行性，在单个序列内一次性解码多个并行推理分支，实现了在保持回答质量基本不变的前提下，解码速度超过100%的显著提升。

1. 引言与背景

大型语言模型（LLM）的自回归（Autoregressive）生成方式，即逐词元生成，是其强大能力的基石，但同时也构成了其在推理效率上的主要瓶颈。对于许多复杂任务（如多文档问答、多角度分析规划、对多个对象进行评估等），其推理过程天然包含多个可以并行处理、互不依赖的步骤。然而，传统的自回归解码迫使这些并行步骤被串行处理，极大地浪费了计算资源，并延长了等待时间。

现有的一些加速方法，如“思想骨架”（Skeleton-of-Thoughts, SoT），虽然尝试解决此问题，但存在明显缺陷：

资源消耗大：SoT依赖于批处理解码（Batch Decoding）或多次独立的API调用来并行处理各个骨架节点，这会导致计算量和内存需求（尤其是存储KV缓存）呈指数级增长。
KV缓存效率低：SoT需要为不同生成阶段设计不同的Prompt模板，这妨碍了KV缓存的复用。
因果关系忽略：SoT将骨架中的每个节点都视为独立，可能忽略了某些节点间潜在的因果关系，缺乏灵活性。

此外，像MEDUSA这类方法需要为新模型