Accelerate 笔记：保存与加载文件

UQI-LIUWJ

已于 2024-09-10 18:05:19 修改

阅读量2.3k

点赞数 3

分类专栏： python库整理文章标签：笔记

于 2024-06-03 21:29:11 首次发布

本文链接：https://blog.youkuaiyun.com/qq_40206371/article/details/139424852

版权

python库整理专栏收录该内容

334 篇文章

订阅专栏

保存和加载模型、优化器、随机数生成器和 GradScaler
- 使用 save_state() 将上述所有内容保存到一个文件夹位置
- 使用 load_state() 加载之前通过 save_state() 保存的状态
通过使用 register_for_checkpointing()，可以注册自定义对象以便自动从前两个函数中存储或加载
- 只要对象具有 state_dict 和 load_state_dict 功能即可
- 这可以包括诸如学习率调度器之类的对象。

【经过实践结果，save_state需要传入一个参数，output_dir=】

2 保存模型的state_dict

在保存模型的 state_dict 时，通常只在主进程上保存一个文件：

if accelerator.is_main_process:
    model = accelerator.unwrap_model(model)
    torch.save(model.state_dict(), "weights.pth")

unwrap见：huggingface笔记：使用accelerate加速_huggingface accelerate-优快云博客

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

UQI-LIUWJ

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Accelerate launch pytorch分布式训练

强化学习曾小健

07-04

5886

在实践中，这意味着：你必须特别注意让你的输入中的所有张量具有相同的形状（所以没有动态填充），并且不应该使用具有。在单个进程上执行的语句：有些语句只需要在特定的进程上执行而无需在所有进程上执行，如数据下载、记录日志、以及打印进度条。上同时部署你的脚本会带来一个复杂的问题：虽然每个进程都是按顺序执行所有指令，但有些可能比其他的快。的模块不应该在不同的设备上分割。这可能会导致明显的减速，因为所有的进程都需要与它们进行更多次的通信。首先，你应该等待所有的进程到达脚本中的 “延迟执行” 所描述的那个点。

Deepspeed/Accelerate框架学习笔记

xiaomu_347的博客

09-07

444

在使用 DeepSpeed 训练大模型时，除了常规的模型设计和数据准备外，还需要特别关注内存管理混合精度通信优化和分布式训练的配置，以确保大模型能够高效、稳定地训练。参考链接：1、2、DeepSpeed-优快云博客。

参与评论您还未登录，请先登录后发表或查看评论

Accelerate模型加载详解

logdada的博客

10-12

1493

然而，对于超大模型，这种方式变得困难。例如，加载一个67亿参数的模型在步骤一的模型创建就需要约26.8GB的CPU RAM。第二步还会再加载一份模型备份，即还会再需要26.8GB的CPU RAM。而且，以上步骤只是为了能将模型在步骤4移动到GPU上。接下来，我会介绍如何利用Accelerate优化PyTorch的特性，以便加载和推理非常大的模型，即使它们无法完全放入RAM或单个GPU。: 大模型在步骤1和2时需要大量的内存。

使用hugging face开源库accelerate进行多GPU训练（单机多卡）时，在保存模型结构的时候出现的问题

EstrangedZ的博客

10-14

1369

单机多卡训练出现 nboundLocalError: UnboundLocalErrorlocal variable 'epoch checkpoint’referenced before assignment:报错的解决方案

Accelerate 单机多卡使用指南

ak47maker的博客

04-01

519

Accelerate是Hugging Face推出的PyTorch扩展库，旨在简化分布式训练流程。它提供了统一的API，让开发者可以用相同的代码在多种硬件配置上运行训练任务，主要特点包括：- 统一代码适配不同硬件（CPU/GPU/TPU）- 简化分布式训练配置- 自动处理混合精度训练- 内置模型保存/加载功能- 支持梯度累积等训练技巧。

Huggingface Accelerate 学习笔记

能找到答案的，只有自己

05-26

1万+

1. 前言 Accelerate 能帮助我们：方便用户在不同设备上 run Pytorch training script. mixed precision 不同的分布式训练场景, e.g., multi-GPU, TPUs, … 提供了一些 CLI 工具方便用户更快的 configure & test 训练环境，launch the scripts. 方便使用：用一个例子感受一下。传统的 PyTorch trainin..

huggingface笔记：使用accelerate加速

qq_40206371的博客

05-16

3613

绿色的是加上的，红色的是去掉的。

Pytorch分布式训练快速入门教程（一）：从Accelerate说起

u013250861的博客

04-27

2770

DP模型的基本思路是将数据/Batch分发到不同机器，在Forward过程将模型复制，数据分batch后分发给不同的GPU，最后由主GPU gather所有的输出；对于大型的DL任务，需要添加大量的工程化步骤，如hyperparams的管理，系统状态的监控等。如果是多机多卡就表示对应第几台机器，如果是单机多卡，由于一个进程内就只有一个 GPU，所以 rank 也就表示第几块 GPU。问题，主GPU承担了额外计算和显存开销，同时卡间大量通信导致的延迟问题也不可忽略，随着数据量和模型大小的增加，

huggingface笔记 accelerate launch

qq_40206371的博客

05-27

2669

用正确的参数在分布式系统上启动指定的脚本。

Android学习笔记：Android基础知识点（不断更新中）

最新发布

AI天才研究院

04-23

930

随着电商行业竞争加剧，产品展示图的生产效率和创意性成为核心竞争力。成本高昂：单次拍摄成本随SKU数量呈线性增长，中小商家难以负担场景单一：固定背景和视角限制消费者想象力，转化率提升瓶颈明显迭代缓慢：从拍摄到上线需数天周期，无法快速响应市场趋势扩散模型基础理论与Stable Diffusion架构解析产品图生成的核心算法实现与数学推导多场景应用案例与工程化落地经验技术工具链与生态资源推荐章节核心内容核心概念。

accelerate:训练和使用具有多GPU，TPU，混合精度的NLP模型的简单方法

03-29

在任何类型的设备上运行* raw * PyTorch培训脚本易于整合 :hugging_face: 为喜欢编写PyTorch模型的训练循环但不愿编写和维护使用多GPU / TPU / fp16的样板代码的PyTorch用户创建了Accelerate。 :hugging_face: 准确加速摘要，仅加速与多GPU / TPU / fp16相关的样板代码，而其余代码保持不变。这是一个例子： import torch import torch.nn.functional as F from datasets import load_dataset + from accelerate import Accelerator + accelerator = Accelerator() - device = 'cpu' + device = accelerator.device model = torch.nn.Transformer().

accelerate 分布式技巧（一）

发呆的比目鱼的博客

09-06

3669

accelerate 分布式技巧（一）

HuggingFace——Accelerate的使用

c___c18的博客

10-31

1万+

HuggingFace----Accelerate的使用

Accelerator 入门实践

Hunter_pcx的博客

10-24

2421

最近因为做实验的数据集较大（百万条中文语句对），传统的单机单卡的速度实在不可恭维，所以笔者转向尝试单机多卡训练。最开始使用的是torch自带的包，引入了很多配置相关的代码，导致原来的代码结构混乱，再加上本身分布式并行计算就难以调试，笔者不得不花费大量时间一点点纠错才跑起来（一把辛酸泪）然后机缘巧合下看到了hugginface开发的accelerate。在阅读完其简介和例子后，心中不经暗想：这也太方便了，事出反常必有妖！不过笔者还是决定付诸实践，看看这库是否如其宣传的那般好用。目前的体验感想，仅一家之言。

Accelerate 0.24.0文档一：三万字极速入门

qq_56591814的博客

11-12

5851

本文介绍了Accelerate的优越性和基本用法，以及一些进阶功能

kaggle notebook 处理临时脚本的方法

weixin_40467931的博客

06-05

532

手撸AI-4: Accelerate库分布式训练详解

weixin_73784868的博客

03-02

3581

Accelerate是 Hugging Face 公司开发的一个 Python 库，旨在简化并优化在各种环境中进行深度学习训练的过程，包括单机、多 GPU、TPU 和各种分布式训练环境。这个库提供了一种通用的 API，可以方便地将原来只能在单个设备上运行的代码扩展到多设备和分布式环境。在平常我们阅读源码或者编写训练流程的时候acceletate尤为重要.官方文档和教程。

生成.bin格式而不是.safetensors格式文件,styleshot调试小记

zj_xd的博客

10-23

346

在复现styleshot的过程中发现训练完stage1之后生成的参数格式为.safetensors，但stage2所需要的格式为.bin，尝试过使用脚本把.safetensors转换成.bin，但是无法被stage2读取。最后将训练第一部分tutorial_train_styleshot_stage_1.py最后倒数第四行的代码。.safetensors是由 Hugging Face 推出的一种新型安全模型存储格式.

bash: accelerate: command not found

12-27

### 解决方案 #### 安装 Accelerate 库为了能够在 Bash 中正常使用 `accelerate` 命令，首先需要确保 Python 环境中已经安装了 `accelerate` 库。推荐使用 pip 进行安装： ```bash pip install accelerate ``` 对于某些特定需求或环境，可能需要从 Conda 渠道安装（注意这种方式可能会遇到兼容性问题）[^1]： ```bash conda install -c conda-forge accelerate ``` #### 验证加速库安装确认 `accelerate` 已经成功安装并能被调用: ```python import accelerate print(accelerate.__version__) ``` #### 设置环境变量 (可选) 有时为了让命令行工具正常工作，设置相应的环境变量也是必要的。虽然这一步骤不是针对 `accelerate` 的必需操作，但对于其他类似的命令行应用可能是有用的。 #### 下载配置文件根据具体应用场景，下载合适的配置文件可以帮助更好地初始化和管理 `accelerate` 实例。例如，可以从指定位置获取默认配置文件并将其放置于合适路径下[^5]: ```bash wget https://github.com/blog-repo/path/to/default_config_accelerate.yaml kubectl create configmap accelerate-config --from-file=default_config_accelerate.yaml ``` #### 使用 Git LFS 获取大型模型资源当涉及到处理大尺寸的数据集或是预训练好的机器学习模型时，Git Large File Storage (LFS) 是一种有效的解决方案。确保本地环境中已启用此功能，并克隆包含所需资源的远程仓库[^4]： ```bash git lfs install git clone https://huggingface.co/01-ai/Yi-6B-Chat ``` 以上步骤完成后，在终端输入 `accelerate` 即应能够识别该命令。如果仍然无法执行，则建议检查 Python 路径是否已被加入到系统的 PATH 变量之中；另外也需留意是否有多个版本冲突的情况发生。