英伟达结构化剪枝工具Nvidia Apex Automatic Sparsity [ASP]（1）——使用方法

NvidiaApexASP：自动模型稀疏化在PyTorch中的使用教程

最新推荐文章于 2025-12-03 22:01:18 发布

原创

最新推荐文章于 2025-12-03 22:01:18 发布 · 2.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#剪枝 #算法 #机器学习 #人工智能 #python #pytorch

本文介绍了Nvidia的Apex库中的AutomaticSparsity(ASP)模块，如何通过两行代码实现模型的2:4稀疏剪枝，并探讨了通道置换算法以保持模型精度。指南涵盖了安装、使用和非标准用法，以及如何在多GPU环境下设置随机种子。

英伟达结构化剪枝工具Nvidia Apex Automatic Sparsity [ASP]（1）——使用方法

Apex是Nvdia维护的pytorch工具库，包括混合精度训练和分布式训练，Apex的目的是为了让用户能够更早的使用上这些“新鲜出炉”的训练工具。ASP（Automatic Sparsity）是Nvidia Apex模块中用于模型稀疏剪枝的算法，

项目地址：NVIDIA/apex: A PyTorch Extension: Tools for easy mixed precision and distributed training in Pytorch (github.com)

本文主要介绍的是ASP中的一个用于模型剪枝的模块：ASP(Automatic sparsity)，该模块仅仅向python模型训练文件中添加两行代码来实现模型的2：4稀疏剪枝，同时还可以通过开启通道置换算法将绝对值较大的参数进行保留，以求对模型精度的影响最小化。

项目地址：项目

论文链接：论文

Installation

从github clone源码安装需要checkout到23.05的tag

git clone https://github.com/NVIDIA/apex.git
cd apex
git checkout 23.05
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" --global-option="--permutation_search" ./

Usage

使用ASP对模型进行稀疏化只需要两步：

# 1. 导入sparsity模块
from apex.contrib.sparsity import ASP
# 2. 使用ASP来模型和优化器进行稀疏化
ASP.prune_trained_model(model, optimizer)

prune_trained_model函数会计算出稀疏mask并将其施加在模型的权重上。

整体而言，通常需要在对模型稀疏化后重新进行训练，整个过程可以表示为：

ASP.prune_trained_model(model, optimizer)

x, y = DataLoader(args)
for epoch in range(epochs):
    y_pred = model(x)
    loss = loss_function(y_pred, y)
    loss.backward()
    optimizer.step()

torch.save(...)

非标准用法：

ASP还可以用来为模型生成稀疏的随机化参数，从而进行更加复杂高级的实验，如果在两个step之间重新计算权重的稀疏矩阵，可以通过在训练的step之间调用ASP.recompute_sparse_masks函数来为模型重新生成稀疏mask。

Channel Permutation

该项目还可以通过开启通道置换算法，来为结构化稀疏后的模型保留最大的精度值。

通道置换算法，顾名思义，就是通过沿着权重矩阵的通道维度进行置换，并对其周围的模型层进行适当调整。

如果开启通道置换算法，那么最终的模型精度与置换算法的质量之间存在很大关系，置换的过程可以通过Apex CUDA拓展来进行加速，否则时间会非常的久。

在Installation步骤中，参数--global-option="--permutation_search"即是用于安装permutation search CUDA extension 。

如果不希望开启通道置换算法，可以在ASP.init_model_for_pruning方法中将参数allow_permutation的值设置为False即可，这一点在后续的源代码分析中也会提到。

需要注意的是，当使用多个GPU时，需要为所有的GPU设置相同的随机种子，通过permutation_lib.py中的 set_identical_seed来进行设置。

import torch
import numpy
import random

torch.manual_seed(identical_seed)
torch.cuda.manual_seed_all(identical_seed)
numpy.random.seed(identical_seed)
random.seed(identical_seed)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

Tips：

在使用ASP对一个新的（未经过稀疏的）推理模型启用结构化稀疏时需要同时调用init_model_for_pruning和compute_sparse_masks方法。
init_model_for_pruning会为模型层添加新的mask buffer，用于保存compute_sparse_masks生成的mask，因此调用了compute_sparse_masks后的模型的state_dict会比之前多出一些数据，这些数据均以_mma_mask结尾的名字进