本文是LLM系列文章,针对《CLLMs: Consistency Large Language Models》的翻译。
摘要
Jacobi解码等并行解码方法有望实现更高效的LLM推理,因为它打破了LLM解码过程的顺序性,并将其转换为可并行计算。然而,在实践中,与传统的自回归(AR)解码相比,它几乎没有实现加速,这主要是因为Jacobi解码很少在单个定点迭代步骤中准确预测多个token。为了解决这个问题,我们开发了一种新的方法,旨在实现从任何状态到雅可比轨迹上的不动点的快速收敛。这是通过细化目标LLM以在给定任何状态作为输入的情况下一致地预测不动点来实现的。大量实验证明了我们方法的有效性,显示出生成速度提高了2.4倍到3.4倍,同时在特定领域和开放领域基准测试中保持了生成质量。我们的代码在https://github.com/hao-ailab/ConsistencyLLM上可用。
1 引言
2 相关工作
3 方法
4 实验
5 结论
在这项工作中,我们介绍了CLLMs,这是一种新的LLM家族,擅长于高效的并行解码,旨在显著提高Jacobi解码的效率。与用于有效LLM推理的其他现有技术不同,后者通常需要额外的体系结构组件或模型草案,CLLM直接改编自预训练的目标LLM。这降低了与附加架构设计或在单个系统中管理两个不同模型相关联的复杂性。此外,CLLMs还可以与其他技术无缝集成,用于有效的LLM推理,以实现更大的加速。我
本文介绍了一种新的LLM方法——CLLMs,它通过改进Jacobi解码实现更快的并行推理,提高生成速度2.4到3.4倍,同时在各种基准测试中保持高质量的生成效果。
订阅专栏 解锁全文
2632

被折叠的 条评论
为什么被折叠?



