大模型如transformers的提高训练速度，减少内存使用的方法

最新推荐文章于 2025-11-10 01:51:06 发布

翻译最新推荐文章于 2025-11-10 01:51:06 发布 · 2.3k 阅读

文章标签：

#深度学习 #人工智能 #机器学习

NLP 同时被 3 个专栏收录

51 篇文章

订阅专栏

transformer

33 篇文章

订阅专栏

神经网络

24 篇文章

订阅专栏

本文探讨了多种优化Transformer模型训练的方法，包括梯度累积以增加虚拟批量大小，网络层冻结以减少计算，浮点精度降低（如float16）以节省内存，使用8-bit Optimizers实现内存占用下降，Gradient Checkpointing通过牺牲计算换取内存，以及Fast Tokenizers加速处理。此外，动态Padding策略允许根据输入动态调整填充，避免固定最大长度带来的浪费。这些技术对于训练大模型时的效率和资源管理至关重要。

部署运行你感兴趣的模型镜像

本文主要将针对大模型如transformers的提高训练速度，减少内存使用的方法。

1. 梯度累积（Gradient Accumulation）：

梯度累积（Gradient Accumulation）是一种不需要额外硬件资源就可以增加批量样本数量（Batch Size）的训练技巧。这是一个通过时间换空间的优化措施，它将多个Batch训练数据的梯度进行累积，在达到指定累积次数后，使用累积梯度统一更新一次模型参数，以达到一个较大Batch Size的模型训练效果

if step % gradient_accumulation_steps == 0 or step == steps:
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm)
        optimizer.step()
        model.zero_grad()

2. freezing：
网络的底层学习输入数据的通用特征，而网络顶层学习目标任务特定的高级特征，所以在对预训练模型进行微调时，一般网络底层的参数都不怎么需要变，这些都是通用的知识，需要学习的是顶层的那些参数，当使用某种优化算法（如 SGD、AdamW 或 RMSprop）执行优化步骤时，网络的底层的梯度就都很小，因此参数几乎保持不变，这也被称为梯度消失，因此，与其花费大量的时间和算力来计算底层这些“无用”梯度，并对此类梯度很小的参数进行优化，不如直接冻结它们，直接不计算梯度也不进行优化。

3. 主要是float32变成float16，这样内存使用变小，增加处理的数据量，提高了运行效率和速度。

4. 8-bit Optimizers：作者（Meta Research）在最初的论文 “8-bit Optimizers via Block-wise Quantization” 中详细介绍了 8-bit Optimizers，表明 8-bit Optimizers 显著降低了显存占用，略微加快了训练速度。
量化是指将信号的连续取值近似为有限多个离散值的过程。具体到计算机系统，指的是将浮点数值映射到低bit数值的操作。一般来说，我们可以通过以下手段应用量化

量化模型参数来压缩模型；
量化模型某些层的激活值来减少内存占用*；

5. Gradient Checkpointing：
Checkpointing的工作原理是用计算换取内存。Checkpointing部分不会存储整个计算图的所有中间激活以进行反向计算，不会保存中间激活，而是在反向过程中重新计算它们。它可以应用于模型的任何部分。

具体而言，在前向传播中，该函数将以 torch.no_grad 的方式运行，即不存储中间激活。然而，前向传播保存了输入元组和函数参数。在反向传播时，检索保存的输入和函数，然后再次对函数进行前向传播，跟踪中间激活，然后使用这些激活值计算梯度。
6. Fast Tokenizers：使用rust语言，多核处理。

# initializing Fast version of Tokenizer
fast_tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)
print(f"Fast version Tokenizer:\n\n{fast_tokenizer}")