LaCo: Large Language Model Pruning via Layer Collapse

最新推荐文章于 2025-12-13 19:13:28 发布

UnknownBody

最新推荐文章于 2025-12-13 19:13:28 发布

阅读量276

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型剪枝人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137968984

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文提出了一种新的大型语言模型（LLM）修剪技术——层折叠（LaCo）。通过将模型的后层折叠到前层，LaCo在保持模型结构不变的情况下，能大幅减小模型大小，且在25-30%的修剪率下仍能保持超过80%的平均任务性能。这种方法无需特殊硬件，适用于大规模模型的优化。

本文是LLM系列文章，针对《LaCo: Large Language Model Pruning via Layer Collapse》的翻译。

摘要

基于transformer的大型语言模型（LLM）呈现出显著的规模扩展趋势，这给模型训练和推理带来了相当大的成本。然而，现有的方法，如模型量化、知识蒸馏和模型修剪，受到各种问题的约束，包括硬件支持的限制、对广泛训练的需要以及对模型内部结构的更改。在本文中，我们提出了一种简洁的逐层修剪方法，称为层折叠（LaCo），其中后部模型层折叠成前一层，从而能够在保持模型结构的同时快速减小模型大小。综合实验表明，在25-30%的修剪率下，我们的方法保持了80%以上的平均任务性能，显著优于现有的最先进的结构化修剪方法。我们还进行了后训练实验，以证实所提出的修剪方法有效地继承了原始模型的参数。最后，我们从逐层相似性的角度讨论了我们的动机，并评估了修剪LLM在不同修剪比率下的性能。