本文是LLM系列文章,针对《Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy》的翻译。
摘要
随着大型语言模型(LLM)在各种任务(如问答、翻译、文本摘要和对话系统)方面取得了重大进展,对信息准确性的需求变得至关重要,尤其是对于像支付宝这样为数十亿用户服务的严肃金融产品。为了解决这一问题,支付宝开发了一个检索增强生成(RAG)系统,该系统将LLM建立在最准确和最新的信息基础上。然而,对于一个为数百万用户服务的真实世界产品来说,与单纯的实验模型相比,LLM的推理速度成为了一个关键因素。
因此,本文提出了一个通用的框架来加速推理过程,从而大大提高了我们的RAG系统的速度并降低了成本,同时具有无损的生成精度。在传统的推理过程中,LLM按顺序生成每个token,导致时间消耗与生成的token数量成比例。为了增强这一过程,我们的框架名为lookahead,引入了一种多分支策略。我们提出了一种基于Trie的检索(TR)过程,该过程可以同时生成多个分支,每个分支都是一个token序列,而不是一次生成单个token。随后,对于每个分支,执行验证和接受(VA)过程,以将最长的正确子序列识别为最终输出。我们的策略提供了两个明显的优势:(1)它保证了输出的绝对正确性,避免了任何近似算法;(2)我们的方法在最坏情况下的性能与传统过程相当。我们进行了广泛的实验,以证明通过应用我们的推理加速框架所实现的显著改进。代码在https://github.com/alipay/PainlessInferenceAcceleration上可用.
本文提出Lookahead框架,针对大型语言模型(LLM)的推理速度问题,通过多分支策略和Trie检索过程加速,保证生成精度的同时降低成本。实验证明,该框架能显著提高LLM的推理速度且无损生成准确性。
已下架不支持订阅
6561

被折叠的 条评论
为什么被折叠?



