BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models

828 篇文章

已下架不支持订阅

本文介绍了BiTA,一种用于大型语言模型(LLM)的无损加速方法,它通过双向调整实现半自回归生成,显著降低延迟,同时保持输出质量。BiTA采用基于树的解码策略,确保与自回归模型相同的输出,适用于各种LLM,实现2.1到3.3倍的速度提升,尤其适用于资源受限的场景和实时应用。

本文是LLM系列文章,针对《BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models》的翻译。

BiTA:大语言模型中无损加速的双向调整

摘要

大型语言模型(LLM)通常在推理过程中使用自回归生成,导致高内存带宽需求,从而延长延迟。为了缓解这种低效性,我们提出了无损加速双向调整(BiTA),这是一种通过简化的半自回归生成和草案验证来加速LLM的创新方法。受提示调整概念的启发,我们通过一种称为双向调整的参数高效设计来增强LLM,以实现半自回归生成的能力。采用高效的基于树的解码,模型并行执行候选草案生成和验证,确保输出与贪婪采样下的自回归对应值相同。BiTA作为一个轻量级的插件模块,无缝地提高了现有LLM的推理效率,而不需要额外的辅助模型或产生显著的额外内存成本。应用所提出的BiTA,LLaMA-2-70B-Chat在MT Bench基准上实现了2.7倍的加速。大量实验证实,我们的方法超越了最先进的加速技术。

1 引言

2 相关工作

3 方法

4 实验

5 结论

我们提出了一种在LLM中实现无损加速的新方法BiTA。为了减少推理过程中自回归LLM中的Transformer调用,BiTA通过所提出的双向调整,利用非常有限的可训练参数,无缝地将现有AR模型调整为SAR生成风格。基于基于树的高效解码策略,该模型同时进行流线型生成和验证。BiTA的这两个特性共同有助于在不改变原始输出的情况下加快LLM。大量的实验结果表明,在各种大小和不同生成任务的LLM中,速度显著提高,范围从2.1倍到3.3倍。此外,由于其灵活的提示设计,BiTA作为一种即插即用技术,适用于

已下架不支持订阅

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值