2021: 8-BIT OPTIMIZERS VIA BLOCK-WISE QUANTIZATION---通过块级量化的8位优化器---待续!!!

Abstract
(Stateful optimizers)有状态优化器随着时间的推移保持梯度统计,例如,过去梯度值的指数平滑和(动量SGD)或平方和(Adam)。// 与普通随机梯度下降相比,这种状态可用于加速优化,但使用的内存可能会分配给模型参数,从而限制了在实践中训练的模型的最大大小。// 在本文中,我们开发了第一个使用8位统计信息的优化器,同时保持使用32位优化器状态的性能水平。为了克服由此产生的计算、量化和稳定性方面的挑战,我们开发了块级动态量化。// 分块量化将输入张量分成独立量化的小块。每个块在核之间并行处理,产生更快的优化和高精度量化。为了保持稳定性和性能,我们将块级量化与两个额外的变化相结合:
(1)动态量化是一种非线性优化的形式,对大大小值都很精确,
(2)是一种稳定的嵌入层,以减少来自语言模型中输入标记高度不均匀分布的梯度方差。因此,我们的8位优化器保持32位性能的一小部分的内存占用的一系列任务,包括1.5b参数语言建模,灰色微调,ImageNet分类,WMT‘14机器翻译,MoCov2对比图像网预训练+微调,和RoBERTa预训练,没有改变原始优化器超参数。我们将8位优化器开源,作为替换,只需要修改
本文提出了一种8位优化器,采用块级动态量化技术,保持了32位优化器的性能,同时显著降低了内存占用。针对非线性量化和动态树量化进行了详细探讨,适用于大规模模型的训练,包括语言建模、图像分类和机器翻译等任务。8位优化器开源,只需修改两行代码即可替换32位优化器,无需调整超参数。
订阅专栏 解锁全文
886

被折叠的 条评论
为什么被折叠?



