大模型的结构化裁剪 、非结构化裁剪

1. 核心定义

  • 结构化裁剪: 以**规则的结构单元(如整层、通道、滤波器)**为剪枝对象,直接移除整个模块。例如,删除某层中50%的滤波器。 特点:保持模型结构规则性,剪枝后模型仍为稠密矩阵,可直接部署于通用硬件(如GPU)。 典型应用:移除Transformer中的注意力头、MLP层或整个模块(如LLM-Pruner)。

  • 非结构化裁剪: 以单个权重或神经元为剪枝对象,通过阈值移除冗余参数(如将绝对值小的权重置零)。 特点:生成稀疏矩阵,参数分布不规则,需专用库(如CuSPARSE)或硬件加速。 典型应用:SparseGPT对LLM权重进行一次性稀疏化(OPT-175B稀疏度60%)。


2. 核心差异

维度 结构化裁剪 非结构化裁
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值