Efficient Pruning of Large Language Model with Adaptive Estimation Fusion

本文探讨了针对大型语言模型(LLM)的结构化修剪方法,提出了一种新的自适应估计融合技术,该技术能更好地适应复杂多层解码器结构,提高在资源受限设备上的部署效率。实验结果显示,与现有方法相比,在LLaMa-7B、Vicuna-7B、百川-7B和Bloom-7b1上平均准确率有所提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Efficient Pruning of Large Language Model with Adaptive Estimation Fusion》的翻译。

基于自适应估计融合的大型语言模型的高效修剪

摘要

大型语言模型(LLM)已经成为许多生成下游任务的关键,这导致了在资源受限的设备上高效地部署它们的不可避免的趋势和重大挑战。结构化修剪是解决这一挑战的一种广泛使用的方法。然而,当处理多个解码器层的复杂结构时,一般方法通常使用通用的估计方法进行修剪。这些方法导致特定下游任务的准确性下降。在本文中,我们介绍了一种简单而有效的方法,该方法自适应地对每个子结构的重要性进行建模。同时,它可以根据复杂和多层结构的结果自适应地融合粗粒度和细粒度估计。我们设计的所有方面都无缝集成到端到端修剪框架中。与主流数据集上的最先进方法相比,我们的实验结果表明,LLaMa-7B、Vicuna-7B、百川-7B和Bloom-7b1的平均准确率分别提高了1.1%、1.02%、2.0%和1.2%。

1 引言

2 相关工作

3 方法

4 实验

5 结论

本文观察到,现有LLM结构修剪技术的局限性源于复杂的多层解码器结构,该结构在每一层中包括各种运算符&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值