文章主要内容总结
本文针对大语言模型(LLMs)层剪枝后的性能下降问题,提出了一种名为LINEARPATCH的即插即用技术。通过分析发现,剪枝接口处的激活幅度不匹配(尤其是层间通道幅度差异和特殊标记的离群值)是性能下降的主要原因。LINEARPATCH通过以下方式解决该问题:
- 哈达玛变换(Hadamard Transformation):抑制特殊标记(如[BOS])的离群值,将激活值重新分布到所有通道,减少标记间的幅度方差。
- 通道缩放(Channel-wise Scaling):引入对角缩放参数矩阵,对齐剪枝前后的层间通道幅度。
- 矩阵融合:将哈达玛变换和通道缩放融合为一个对称矩阵(LINEARPATCH),插入剪枝接口,仅需一次矩阵乘法,推理开销可忽略。
- 内存高效的离线知识蒸馏:通过冻结模型其他参数,仅微调LINEARPATCH矩阵,使用5K样本和单卡30分钟即可进一步提升性能。
实验表明,在LLaMA-3-8B上剪枝5层时,LINEARPATCH保留了94.15%的原始性能,远超现有方法(如LLM-Streamline的90.84%)。结合知识蒸馏后,性能可提升至95.16%。
文章创新点
- 首次揭示层剪枝性能下降的核心原因:剪枝接口处的层间激活幅度不匹配和特殊标记离群值问题。
- 轻量化
订阅专栏 解锁全文
916

被折叠的 条评论
为什么被折叠?



