本文是LLM系列文章,针对《ShortGPT: Layers in Large Language Models are More Redundant Than You Expect》的翻译。
摘要
随着大型语言模型(LLM)在性能上的不断进步,它们的规模已经显著升级,目前的LLM包含数十亿甚至数万亿个参数。然而,在这项研究中,我们发现LLM的许多层表现出高度相似性,而有些层在网络功能中的作用可以忽略不计。基于这一观察结果,我们定义了一个称为块影响(BI)的度量,以衡量LLM中每一层的重要性。然后,我们提出了一种简单的修剪方法:层删除,即根据LLM中的BI分数直接删除它们中的冗余层。实验表明,我们称之为ShortGPT的方法在模型修剪方面显著优于以前最先进的(SOTA)方法。此外,ShortGPT与类似量化的方法正交,能够进一步减少参数和计算。与更复杂的修剪技术相比,通过简单的层去除实现更好结果的能力表明模型架构中存在高度冗余。