BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量756

点赞数 6

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136391591

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了BiTA，一种用于大型语言模型（LLM）的无损加速方法，它通过双向调整实现半自回归生成，显著降低延迟，同时保持输出质量。BiTA采用基于树的解码策略，确保与自回归模型相同的输出，适用于各种LLM，实现2.1到3.3倍的速度提升，尤其适用于资源受限的场景和实时应用。

本文是LLM系列文章，针对《BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models》的翻译。

摘要

大型语言模型（LLM）通常在推理过程中使用自回归生成，导致高内存带宽需求，从而延长延迟。为了缓解这种低效性，我们提出了无损加速双向调整（BiTA），这是一种通过简化的半自回归生成和草案验证来加速LLM的创新方法。受提示调整概念的启发，我们通过一种称为双向调整的参数高效设计来增强LLM，以实现半自回归生成的能力。采用高效的基于树的解码，模型并行执行候选草案生成和验证，确保输出与贪婪采样下的自回归对应值相同。BiTA作为一个轻量级的插件模块，无缝地提高了现有LLM的推理效率，而不需要额外的辅助模型或产生显著的额外内存成本。应用所提出的BiTA，LLaMA-2-70B-Chat在MT Bench基准上实现了2.7倍的加速。大量实验证实，我们的方法超越了最先进的加速技术。

1 引言

2 相关工作

3 方法

4 实验

5 结论

我们提出了一种在LLM中实现无损加速的新方法BiTA。为了减少推理过程中自回归LLM中的Transformer调用，BiTA通过所提出的双向调整，利用非常有限的可训练参数，无缝地将现有AR模型调整为SAR生成风格。基于基于树的高效解码策略，该模型同时进行流线型生成和验证。BiTA的这两个特性共同有助于在不改变原始输出的情况下加快LLM。大量的实验结果表明，在各种大小和不同生成任务的LLM中，速度显著提高，范围从2.1倍到3.3倍。此外，由于其灵活的提示设计，BiTA作为一种即插即用技术，适用于

了解本专栏