DeepSpeed Autotuning

最新推荐文章于 2025-12-15 18:06:12 发布

原创最新推荐文章于 2025-12-15 18:06:12 发布 · 385 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#性能优化

部署运行你感兴趣的模型镜像

AutoTuning

用不同的系统参数试跑用户的模型训练，尝试不同的参数组合，给出每种参数组合的速度，供用户去选择较块的来进行真正的训练。

ZeRO optimization stages；micro-batch sizes；optimizer, scheduler, fp16等；

在DeepSpeed配置文件里，设定：

"autotuning": { "enabled": true }

如果想在batch size上进行枚举，设置：

"train_micro_batch_size_per_gpu": "auto"

fast-mode试跑（大概27分钟跑完），结果：(gas是gradient accumulation steps；tmbspg是train micro-batch-size per GPU)

tuning_space	num_experiments	best_metric_val	best_exp_name
z0	4	59.0229	z0_gas1_tmbspg2
z1	5	87.3017	z1_gas1_tmbspg3
z2	3	77.8338	z2_gas1_tmbspg3
z3	1	0	z3_gas1_tmbspg3
global	13	87.3017	z1_gas1_tmbspg3

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

smartcat2010

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

DeepSpeed中ZeRO-2和ZeRO-3的主要区别

强化学习曾小健

07-06

3271

大模型训练推理：DeepSpeed使用介绍-2

天涯雨的博客

08-16

1065

大模型训练推理：DeepSpeed使用介绍-2

参与评论您还未登录，请先登录后发表或查看评论

deepspeed的参数

qq_50097745的博客

09-20

3940

deepspeed的参数很多，都可以在ds_config里面配置，字典格式，但是英文文档让人看着总感觉不习惯，所以，看完英文文档的同时，将其部分翻译成中文文档，以供后续训练的时候观看。

基于DeepSpeed对 llama2-7b的LORA精调

u010899985的博客

12-21

5439

DeepSpeed框架配置解析：一份详细的日志分析

阿正的梦工坊

11-29

1522

这些配置项涵盖了内存优化、自动调优、混合精度、分布式训练等多个方面，以及模型训练的其他细节方面，包括压缩、梯度处理、优化器配置、数据效率、流水线并行等

Deepspeed的机制学习以及ZeRO-1、ZeRO-2和ZeRO-3的区别

samoyan的博客,记录技术成长~

03-18

3万+

ZeRO（Zero Redundancy Optimizer）是一种为了解决大规模分布式训练中的内存瓶颈问题而设计的优化器。它通过减少冗余数据来优化模型的内存使用，允许训练更大的模型。ZeRO分为三个优化级别：ZeRO-1、ZeRO-2和ZeRO-3，每个级别都在前一个级别的基础上进一步减少内存占用。ZeRO-1、ZeRO-2和ZeRO-3是递进的优化级别，每个级别都在前一个级别的基础上减少更多的内存冗余。

deepspeed训练log 多机多卡

zengxiaojian2的博客

07-20

920

这些日志信息提供了关于 DeepSpeed 训练过程的详细视图，包括优化器的加载和初始化、内存使用情况、训练参数配置等。通过这些信息，可以监控训练的进展及其资源使用情况，帮助优化训练过程。

export AUTO_RESUME=yes PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,garbage_collection_threshold:0.8,max_split_size_mb:128" \ deepspeed \ --num_gpus 6 \ --deepspeed_config ds_config.json \ # DeepSpeed 参数放在脚本名前 finetune.py \ # 脚本名 /mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/finetune \ # DATA_DIR /mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/cache/models--zai-org--GLM-Z1-32B-0414/snapshots/8eb2858992c1f749e2a6d4075455decc2484722d \ # MODEL_DIR configs/lora.yaml \ # CONFIG_FILE usage: deepspeed [-h] [-H HOSTFILE] [-i INCLUDE] [-e EXCLUDE] [--num_nodes NUM_NODES] [--min_elastic_nodes MIN_ELASTIC_NODES] [--max_elastic_nodes MAX_ELASTIC_NODES] [--num_gpus NUM_GPUS] [--master_port MASTER_PORT] [--master_addr MASTER_ADDR] [--node_rank NODE_RANK] [--launcher LAUNCHER] [--launcher_args LAUNCHER_ARGS] [--module] [--no_python] [--no_local_rank] [--no_ssh] [--no_ssh_check] [--force_multi] [--save_pid] [--enable_each_rank_log ENABLE_EACH_RANK_LOG] [--autotuning {tune,run}] [--elastic_training] [--bind_cores_to_rank] [--bind_core_list BIND_CORE_LIST] [--ssh_port SSH_PORT] [--venv_script VENV_SCRIPT] [--log_level {debug,info,warning,error,critical}] [-q] user_script ... deepspeed: error: unrecognized arguments: --deepspeed_config finetune.py：未找到命令 bash: /mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/finetune: 是一个目录 bash: /mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/cache/models--zai-org--GLM-Z1-32B-0414/snapshots/8eb2858992c1f749e2a6d4075455decc2484722d: 是一个目录 bash: configs/lora.yaml: 权限不够

10-23

根据DeepSpeed官方文档，正确的参数是`--deepspeed`（用于指定配置文件）或`--deepspeed_config`（两者都可以，但注意版本）。但请注意，在启动命令中，deepspeed的参数应该放在脚本名称之前。然而，用户报错是...

自动超参数优化 AutoGluon 简单使用

刘文凯的博客

01-01

6769

今天发现一个非常简单易用的超参数优化包 (李沐大神开发的），简单的使用了以下，效果不错。说明支持的模型：机器学习模型；深度学习模型；模型集成；深度学习模型集成；等等简单应用超参数调优// 你没看错，这个里也要超参数调优。哈哈哈，用于调优模型的模型也是有参数的： **支持的任务** 分类回归图像识别图像预测物体检测文本预测多任务预测 **另外** 支持自定义模型支持神经架构

DeepSpeed使用指南(简略版)

热门推荐

weixin_43301333的博客

10-10

7万+

Zero Redundancy Optimizer (ZeRO)是DeepSpeed的workhorse. 用户可以提供不同的ZeRO config文件，来实现DeepSpeed的不同功能特性。来看一下官网教程对ZeRO的描述：一句话总结：，划分而不是复制。即，传统的深度学习，模型训练并行，是将模型参数复制多份到多张GPU上，只将数据拆分（如，torch的Dataparallel），这样就会有大量的显存冗余浪费。而ZeRO就是为了消除这种冗余，提高对memory的利用率。

在Huggingface Transformers中使用DeepSpeed加速训练

CheatEngine_jaz的博客

05-07

1万+

在Huggingfac🤗Transformers中使用DeepSpeed加速库

javascript 性能优化实战：异步和延迟加载

小伙伴们全都Lucky！

12-11

927

本文探讨JavaScript性能优化中的异步加载与延迟加载技术。异步加载通过async/defer属性或动态创建script元素避免阻塞渲染；延迟加载则利用IntersectionObserver API按需加载非关键资源。二者结合可显著提升性能：异步加载核心脚本确保交互流畅，延迟加载减少初始请求量。实践表明，该方案能降低DOMContentLoaded时间30%以上，减少初始加载量90%，但需注意async脚本的执行顺序问题和延迟加载的回退处理。文中提供了完整的代码实现示例。

RN 性能优化：列表滚动掉帧、卡顿怎么办？

qq_36863796的博客

12-10

948

摘要：本文深入分析React Native长列表性能问题，从JS线程压力、虚拟列表机制到原生渲染和图片加载等方面剖析卡顿原因。提供FlatList优化方案，包括keyExtractor、getItemLayout和windowSize的正确使用，并给出一个包含memo化、图片占位等优化项的完整Demo。对于更复杂场景，推荐使用RecyclerListView实现高性能虚拟列表，并分享避免无效重渲染的实用技巧，帮助开发者实现流畅的RN列表体验。

[鸿蒙2025领航者闯关]鸿蒙实战进阶：多端协同与性能优化实践心得

2501_93573294的博客

12-10

957

[鸿蒙2025领航者闯关]鸿蒙实战进阶：多端协同与性能优化实践心得

Android 性能优化之启动加速：从底层原理到架构治理

allk55的博客

12-14

605

利用解决白屏，提升第一眼体验。严控主线程耗时，非必须的初始化通通往后推。减少层级，降低渲染压力。在启动优化中，我们经常面临一个死结：有些任务（比如初始化某些依赖 View 的 SDK、预加载下一页数据）必须在主线程执行，不能扔到子线程。但如果直接在onCreate或onResume里执行，就会抢占 CPU，导致首屏渲染变慢。IdleHandler 就是用来打破这个死结的。“IdleHandler 并不是用来替代子线程的。凡是能去子线程的任务，首选依然是子线程。

小说小程序开发性能优化：章节预加载、缓存清理与大文件下载速度提升

wx_ywyy6798的博客

12-10

1054

小说小程序性能优化指南：提升用户留存率的三大关键策略。针对70%用户因加载卡顿流失的问题，本文提出：1）智能预加载章节内容，根据网络环境分级控制；2）建立自动+手动双层缓存清理机制，避免程序臃肿；3）采用分段下载和断点续传技术优化大文件传输。实践数据显示，优化后可使加载速度提升60%，用户留存率提高45%。通过平衡体验与效率，开发者能显著改善网文阅读流畅度。

Java 应对 Rust 竞争的 性能优化策略

码刀攻城

12-10

1041

面对 Rust 的竞争，Java 并非毫无还手之力

从零掌握 List：高效操作与性能优化实战