本文是LLM系列文章,针对《BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models》的翻译。
摘要
大型语言模型(LLM)通常在推理过程中使用自回归生成,导致高内存带宽需求,从而延长延迟。为了缓解这种低效性,我们提出了无损加速双向调整(BiTA),这是一种通过简化的半自回归生成和草案验证来加速LLM的创新方法。受提示调整概念的启发,我们通过一种称为双向调整的参数高效设计来增强LLM,以实现半自回归生成的能力。采用高效的基于树的解码,模型并行执行候选草案生成和验证,确保输出与贪婪采样下的自回归对应值相同。BiTA作为一个轻量级的插件模块,无缝地提高了现有LLM的推理效率,而不需要额外的辅助模型或产生显著的额外内存成本。应用所提出的BiTA,LLaMA-2-70B-Chat在MT Bench基准上实现了2.7倍的加速。大量实验证实,我们的方法超越了最先进的加速技术。
1 引言
2 相关工作
3 方法
4 实验
5 结论
我们提出了一种在LLM中实现无损加