HuggingFace——Accelerate的使用

原创

已于 2024-11-25 16:13:54 修改 · 1.5w 阅读

46 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #机器学习 #HuggingFace #Pytorch

于 2022-10-31 15:24:42 首次发布

� Accelerate 是一个PyTorch库，只需4行代码就能实现跨各种分布式配置运行。它简化了训练和推理，支持分布式训练、梯度裁剪、混合精度训练等功能。通过accelerate启动、配置、验证和训练脚本，可以轻松处理分布式环境。在训练过程中，dataloader会在各GPU间均匀分布，确保数据同步。加速器提供了自动处理device和loss backward的功能，并允许手动配置。此外，它还提供了一种分布式评估方法，以及模型和训练状态的保存与加载。

Overview

🤗 Accelerate is a library that enables the same PyTorch code to be run across any distributed configuration by adding just four lines of code! In short, training and inference at scale made simple, efficient and adaptable.

Demo

# + 代表使用accelerate的增加语句；- 代表去掉
+ from accelerate import Accelerator
 from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler

+ accelerator = Accelerator()

 model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
 optimizer = AdamW(model.parameters(), lr=3e-5)

- device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
- model.to(device)

+ train_dataloader, eval_dataloader, model, optimizer = accelerator.prepare(
+     train_dataloader, eval_dataloader, model, optimizer
+ )

 num_epochs = 3
 num_training_steps = num_epochs * len(train_dataloader)
 lr_scheduler = get_scheduler(
     "linear",
     optimizer=optimizer,
     num_warmup_steps=0,
     num_training_steps=num_training_steps
 )

 progress_bar = tqdm(range(num_training_steps))

 model.train()
 for epoch in range(num_epochs):
     for batch in train_dataloader:
-         batch = {
    
    k: v.to(device) for k, v in batch.items()}
         outputs = model(**batch)
         loss = outputs.loss
-         loss.backward()
+         accelerator.backward(loss)

         optimizer.step()
         lr_scheduler.step()
         optimizer.zero_grad()
         progress_bar.update(1)

如果简单来说，就是添加了一个accelerate来控制分布式训练，其中了loss的backward变成了accelerate.backward(loss)。

Installation & Configuration

安装和配置参考官网即可，其中配置的过程是需要在终端Terminal上通过回答一系列问题，然后自动生成一个名为default_config的yaml文件，并保存在根目录.catch/huggingface/accelerate目录下。

配置完成之后可以使用accelerate env [--config_file] [config_file_name]来验证配置文件是否是Valid。

默认配置文件内容：

- `Accelerate` version: 0.11.0.dev0
- Platform: Linux-5.10.0-15-cloud-amd64-x86_64-with-debian-11.3
- Python version: 3.7.12
-

最低0.47元/天解锁文章

7 条评论

qq_45904995 2023.05.12
#model = accelerator.prepare(model) #optimizer = accelerator.prepare(optimizer) #train_dataloader = accelerator.prepare(train_dataloader) #val_dataloader = accelerator.prepare(val_dataloader) #lr_scheduler = accelerator.prepare(lr_scheduler) 请问这样写可以吗
- Charon_HN回复qq_45904995 2023.05.30
  你是不是用了DeepSpeed呢？另外：如果分开写的话，本质上是不是跟写在一起也一样，那么是否显存依旧不够呢？
- Charon_HN回复qq_45904995 2023.05.12
  这样写的话，可能会存在问题，你可以参考官方的文档。 https://huggingface.co/docs/accelerate/v0.19.0/en/package_reference/accelerator#accelerate.Accelerator.prepare 下面是prepare的参数情况，按照顺序传参。 [code=python] *args (list of objects) — Any of the following type of objects: torch.utils.data.DataLoader: PyTorch Dataloader torch.nn.Module: PyTorch Module torch.optim.Optimizer: PyTorch Optimizer torch.optim.lr_scheduler.LRScheduler: PyTorch LR Scheduler [/code] 对于optimizer、dataloader和schedule，官网上都有单独的对应方法可供你参考，比如prepare_optimizer；
- qq_45904995回复qq_45904995 2023.05.12
  写在一个prepare里的话，我的gpu会显存不够。但是按上面方法写，会报错'DeepSpeedZeRoOffload' object has no attribute 'backward'。想知道这个错是不是因为我把prepare分开写导致的

weixin_52253110 2023.04.05
你好，出现 accelerate : 无法将“accelerate”项识别为 cmdlet、函数、脚本文件或可运行程序的名称的问题怎么解决呢？
- Charon_HN回复weixin_52253110 2023.05.04
  有没有具体的报错信息呢，你说这种情况我没有遇到过[face]emoji:010.png[/face]