论文解读-面向高效生成大语言模型服务：从算法到系统综述

原创

于 2024-04-26 10:31:17 发布 · 1.5k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #算法 #人工智能

一、简要介绍

在快速发展的人工智能（AI）领域中，生成式大型语言模型（llm）站在了最前沿，彻底改变了论文与数据交互的方式。然而，部署这些模型的计算强度和内存消耗在服务效率方面带来了重大挑战，特别是在要求低延迟和高吞吐量的场景中。本调查从机器学习系统（MLSys）研究的角度，解决了对高效LLM服务方法的迫切需求，这是先进人工智能创新和实际系统优化的关键。论文提供深入的分析，涵盖了一系列的解决方案，从尖端的算法修改到系统设计的突破性变化。该调查旨在全面了解高效LLM服务的现状和未来发展方向，为研究人员和从业人员克服有效部署LLM的障碍提供有价值的见解，从而重塑人工智能的未来。

二、背景

2.1基于transformer的LLM

其中，dk是键的维度。这种机制允许模型为输出的每个元素关注输入序列的不同部分，捕获复杂的依赖关系，而不管它们在输入序列中的距离如何。 Transformer的另一个重要结构是前馈网络（FFN），它存在于transformer的每一层，对其计算强度有重要贡献。FFN通常由两个线性变换组成，中间有一个非线性激活函数，通常表示为：

这里，W1、W2、b1和b2是FFN的可学习参数，而非线性函数max（0，·）（ReLU，在本例中）在模型中引入了必要的非线性，允许它学习更复杂的模式。FFN负责模型的参数计数的很大一部分，因此，还负责它的内存占用和计算负载。在每个transformer层中，在多头注意（MHA）聚合了来自输入的不同部分的信息后，FFN为每个位置独立地处理这些聚合的信息。这种并行处理能力是transformer的一个关键优势，允许它有效地处理序列。然而，这也意味着计算负载和内存需求随着输入序列的长度和网络的深度而变化。在基于transformer的LLMs中，自注意和FFN的结合使这些模型能够捕获广泛的语言上下文和细微差别，并在各种NLP任务中设置新的基准。然而，对训练和推理的大量计算需求已经成为一个关键的研究领域，重点是在不显著影响性能的情况下优化这些方面。transformer模型还包括其他关键组件，如位置编码，位置编码添加了关于每个token在序列中的位置的信息，以及多头注意机制，它允许模型在不同的表征空间中关注序列的不同部分。

2.2 GPU和其他加速器

llm的快速发展在很大程度上要归功于GPU架构和其他加速器的发展，这是提高模型性能和效率不可或缺的一部分。GPU（图形处理单元）已经成为这一领域的基石，主要是由于其优越的并行处理能力。与传统的为顺序处理而设计的CPU不同，GPU由数千个小型、高效的核心组成，它们被设计用于同时处理多个任务。这使得它们非常适合于在深度学习计算中无处不在的矩阵和向量操作，特别是对于基于transformer的模型。一个典型的GPU架构包括一个流式多处理器（SMs）阵列，每个多处理器包含几个核心，它们共享一个共同的指令单元，但可以并行执行独立的线程。此外，每个SM中的共享内存（SRAM）允许线程之间的高效数据交换和同步，显著地优化了LLM计算中所需的内存访问模式。这种设计特别有利于llm中的计算密集型任务，如transformer中的自注意网络和前馈网络的计算。GPU还配备了高带宽内存（HBM），这允许更快的数据传输速率，显著减少了在大规模计算过程中与内存访问相关的瓶颈。此外，最新的GPU架构，如NVIDIA的Ampere和Hopper架构，继续提供增强和推动LLM计算的边界，如改进内存带宽和容量，更高的浮点运算（FLOPS），专门的混合精度计算单元（即张量核心）和更有效的资源利用，进一步加速LLM的性能。其中一些支持各种精度格式，包括FP32（32位浮点）、TF32（TensorFloat-32）、FP16（16位浮点）、BF16（脑浮点），甚至INT8/INT4，允许在计算速度和数值精度之间进行灵活的权衡，这对优化LLM性能至关重要。除了 GPU, LLM部署已经探索了大量的硬件平台，包括 CPU, mobile and edge devices , ASIC,以及专门的加速器如TPU, FPGA,和来自不同制造商的其他新兴人工智能芯片(比如 Apple M2 Ultra, AWS Inferentia, SambaNova, Cerebras, Graphcore IPU)。这项调查主要强调了基于GPU使用的研究，而一些技术动机推动了这一重点。由于其架构创新和卓越的计算能力，GPU在过去的几年中主导了大规模深度学习的研究领域。此外，GPU的编程语言，如NVIDIA的CUDA和AMD的ROCm，有助于对线程层次结构的细粒度控制，允许研究人员利用GPU中固有的大规模并行性。它吸引了大量开发人员在这些GPU之上构建成熟的软件生态系统，促进了大部分开创性和先进的LLM研究。虽然其他硬件平台确实为特定的上下文带来了独特的优势，但以GPU为中心的大量研究、开发和部署库使其成为深入理解LLM推理方法的不可或缺的参考。考虑到硬件的相似性，其他硬件平台也可以从本调查中讨论的设计哲学、见解和方法中获益。

2.3 LLM推理

LLM推理，特别是在像GPT（Generative Pre-trained Transformer）这样的模型中，通常采用自回归解码方法。这种方法是这些模型如何生成文本的核心，它确保生成的每个新单词或标记都要考虑到迄今为止生成的整个序列。自回归解码的原理是顺序预测一个序列中的下一个token，给定所有之前的标记，如算法1所示。

这种自回归方法是LLM推理的基础，用于生成连贯的和上下文适当的文本。它确保生成的每个token都以对之前生成的所有内容的全面理解为条件，允许llm生成高度相关和流畅的文本序列。先前的研究对基于transformer的LLM推理的算法强度（如计算失败、I/O和内存消耗）进行了深入的分析，并根据自回归解码算法执行的成本估计（如建模推理延迟）进行了广泛的经验分析。LLM推理的优化是一个复杂的问题，因为不同的算法配置和系统设置可能存在不同的优化策略。

2.4挑战

延迟和响应时间。高效的大型语言模型推理需要实现低延迟和快速的响应时间，特别是在诸如聊天机器人、虚拟助手和交互式系统等实时应用程序中。平衡模型的复杂性和推理速度是一个关键的挑战，需要优化算法和系统架构，以在不降低精度的情况下最小化响应时间。

内存足迹和模型大小。由于大型语言模型的大小和包含的大量参数，因此需要大量的内存需求。在内存受限的设备上部署这样的模型是一个挑战，它需要开发有效的模型压缩技术和系统优化，以在不牺牲性能的情况下减少内存占用。可伸缩性和吞吐量。推理系统在生产环境