NVIDIA Ampere 架构的结构化稀疏功能及其在搜索引擎中的应用
深度学习彻底改变了我们分析、理解和处理数据的方式,而且在各个领域的应用中都取得了巨大的成功,其在计算机视觉、自然语言处理、医疗诊断和医疗保健、自动驾驶汽车、推荐系统以及气候和天气建模方面有许多成功案例。
在神经网络模型不断变大的时代,对计算速度的高需求对硬件和软件都形成了巨大的挑战。模型剪枝和低精度推理是非常有效的解决方案。
自 NVIDIA Ampere 架构开始, 随着 A100 Tensor Core GPU 的推出,NVIDIA GPU 提供了可用于加速推理的细粒度结构化稀疏功能。在本文中,我们将介绍此类稀疏模型的训练方法以保持模型精度,包括基本训练方法、渐进式训练方法以及与 int8 量化的结合。我们还将介绍如何利用 Ampere 架构的结构化稀疏功能进行推理。
腾讯机器学习平台部门 (MLPD) 利用了渐进式训练方法,简化了稀疏模型训练并实现了更高的模型精度。借助稀疏功能和量化技术,他们在腾讯的离线服务中实现了 1.3 倍~1.8 倍的加速。
NVIDIA Ampere 架构的结构化稀疏功能
NVIDIA Ampere 和 NVIDIA Hopper 架构 GPU 增加了新的细粒度结构化稀疏功能,该功能主要用于加速推理。此功能是由稀疏 Tensor Core 提供,这些稀疏 Tensor Core 需要 2:4 的稀疏模式。也就是说,以 4 个相邻权重为一组,其中至少有 2 个权重必须为 0,即 50% 的稀疏率。
这种稀疏模式可实现高效的内存访问能力,有效的模型推理加速,并可轻松恢复模型精度。在模型压缩后,存储格式只存储非零值和相应的索引元数据(图 1)。稀疏 Tensor Core 在执行矩阵乘法时仅处理非零值,理论上,计算吞吐量是同等稠密矩阵乘法的 2 倍。
图 1. 2:4 结构化稀疏模式及其压缩格式
(结构化稀疏矩阵具有 2:4 的稀疏模式。在 4 个相邻权重当中,至少有 2 个值为零。在模型压缩后,仅存储非零值和相应的索引元数据。)
结构化稀疏功能主要应用于能够提供 2:4 稀疏权重的全连接层和卷积层。如果提前对这些层的权重做剪枝,则这些层可以使用结构化稀疏功能来进行加速。
训练方法
由于直接对权重做剪枝会降低模型精度,因此在使用结构化稀疏功能的时候,您需要进行训练来恢复模型精度。下面,我们将介绍一些基本训练方法和新的渐进式训练方法。
基本训练方法
基本训练方法可保持模型精度,并且无需任何