本文是LLM系列文章,针对《ShortGPT: Layers in Large Language Models are More Redundant Than You Expect》的翻译。
摘要
随着大型语言模型(LLM)在性能上的不断进步,它们的规模已经显著升级,目前的LLM包含数十亿甚至数万亿个参数。然而,在这项研究中,我们发现LLM的许多层表现出高度相似性,而有些层在网络功能中的作用可以忽略不计。基于这一观察结果,我们定义了一个称为块影响(BI)的度量,以衡量LLM中每一层的重要性。然后,我们提出了一种简单的修剪方法:层删除,即根据LLM中的BI分数直接删除它们中的冗余层。实验表明,我们称之为ShortGPT的方法在模型修剪方面显著优于以前最先进的(SOTA)方法。此外,ShortGPT与类似量化的方法正交,能够进一步减少参数和计算。与更复杂的修剪技术相比,通过简单的层去除实现更好结果的能力表明模型架构中存在高度冗余。
1 引言
2 方法
3 实验
4 分析
5 局限性
6 相关工作
7 结论
这项工作引入了一种基于层冗余和定义为注意力熵的“重要性”度量来修剪大型语言模型(LLM)的新方法。我们的研究揭示了LLM中显著的分层冗余,表明某些层对整体网络功能的贡献最小,因此可以在不显著影响模型性能的情况下删除。通过采用以每层计算的重要性为指导的直接层去除策略,我们已经证明,可以保持LLM高达95%的性能,同时将模型的参数计数和计算要求减少约25%。这一成就不仅超越了以前最先进的修剪方法,
研究发现大型语言模型(LLM)存在大量冗余层,通过定义“块影响”度量,提出层删除的修剪方法——ShortGPT,能在不影响性能的情况下大幅减小模型规模和计算需求。
订阅专栏 解锁全文
2150

被折叠的 条评论
为什么被折叠?



