本文是LLM系列文章,针对《Fluctuation-based Adaptive Structured Pruning for Large Language Models》的翻译。
摘要
网络修剪是解决大型语言模型(LLM)部署和推理的巨大计算资源需求的一种很有前途的方法。免费再训练对LLM的修剪方法很重要。然而,几乎所有现有的LLM无需再训练的修剪方法都集中在非结构化修剪上,这需要特定的硬件支持来加速。在本文中,我们提出了一种新的LLM无需再训练的结构化修剪框架,称为FLAP(基于模糊推理的自适应结构化修剪)。它通过有效地减少存储和提高推理速度,对硬件友好。为了有效地对LLM进行结构化修剪,我们强调了三个需要高度关注的关键要素:制定结构化重要性指标,自适应搜索全局压缩模型,以及实施补偿机制以减轻性能损失。首先,FLAP基于波动修剪度量来确定当去除一列权重时输出特征图是否容易恢复。然后对重要性得分进行标准化,自适应地确定全局压缩模型结构。最后,FLAP添加了额外的偏置项,以使用基线值恢复输出特征图。我们根据各种语言基准对我们的方法进行了全面评估。在没有任何再训练的情况下,我们的方法显著优于最先进的方法,包括LLM Pruner和Wanda在结构化修剪中的扩展。代码发布于https://github.com/CASIA-IVA-Lab/FLAP.
1 引言
2 相关工作
3 前言
4 方法
5 实验
6 结论
在这项工作中,我们提出了F
本文提出FLAP,一种无需再训练的结构化修剪框架,适用于大型语言模型(LLM),旨在降低存储需求和提高推理速度。FLAP利用波动修剪度量确定权重的重要性,自适应地搜索压缩模型结构,并通过补偿机制减轻性能损失。实验结果显示,FLAP在不进行再训练的情况下,性能优于现有最先进的方法。
已下架不支持订阅
924

被折叠的 条评论
为什么被折叠?



