当完成训练后,我们就可以将大语言模型部署到真实场景中进行使用。大语言模型是通过文本生成的方式进行工作的。在自回归架构中,模型针对输入内容逐个单词生成输出内容的文本。这个过程一般被称为解码。在本章的内容中,我们将首先介绍常见的解码策略以及相应的优化加速算法,然后介绍对大语言模型大小进行压缩以适应低资源场景。
解码策略
在介绍具体的解码策略之前,首先介绍一下语言模型解码的背景知识。这里,主要介绍自回归场景下的解码策略。算法2展示了一个整体的自回归解码流程。可以看到,模型M每次根据当前上下文词元序列𝒖=[𝑢1,𝑢2,··· ,𝑢𝑡]建模下一个词的概率分布𝑃,然后根据一定的解码策略选择下一个词𝑢′,之后再将𝒖和𝑢′作为新的上下文重复上述步骤,直到生成结束词元或者达到长度上限为止。在这个流程中,解码策略将主要关注如何基于概率分布𝑃选择合适的下一个词𝑢′。自回归的解码策略并不局限于特定架构,常见的编码器-解码器、因果解码器和前缀解码器均可适用。
回顾前文的内容,目前