DeepSpeed Autotuning

部署运行你感兴趣的模型镜像

AutoTuning

用不同的系统参数试跑用户的模型训练,尝试不同的参数组合,给出每种参数组合的速度,供用户去选择较块的来进行真正的训练。

ZeRO optimization stages;micro-batch sizes;optimizer, scheduler, fp16等;

在DeepSpeed配置文件里,设定:

"autotuning": { "enabled": true }

如果想在batch size上进行枚举,设置:

"train_micro_batch_size_per_gpu": "auto"

fast-mode试跑(大概27分钟跑完),结果:(gas是gradient accumulation steps;tmbspg是train micro-batch-size per GPU)

tuning_spacenum_experimentsbest_metric_valbest_exp_name
z0459.0229z0_gas1_tmbspg2
z1587.3017z1_gas1_tmbspg3
z2377.8338z2_gas1_tmbspg3
z310z3_gas1_tmbspg3
global1387.3017z1_gas1_tmbspg3

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo-v5

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

export AUTO_RESUME=yes PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,garbage_collection_threshold:0.8,max_split_size_mb:128" \ deepspeed \ --num_gpus 6 \ --deepspeed_config ds_config.json \ # DeepSpeed 参数放在脚本名前 finetune.py \ # 脚本名 /mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/finetune \ # DATA_DIR /mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/cache/models--zai-org--GLM-Z1-32B-0414/snapshots/8eb2858992c1f749e2a6d4075455decc2484722d \ # MODEL_DIR configs/lora.yaml \ # CONFIG_FILE usage: deepspeed [-h] [-H HOSTFILE] [-i INCLUDE] [-e EXCLUDE] [--num_nodes NUM_NODES] [--min_elastic_nodes MIN_ELASTIC_NODES] [--max_elastic_nodes MAX_ELASTIC_NODES] [--num_gpus NUM_GPUS] [--master_port MASTER_PORT] [--master_addr MASTER_ADDR] [--node_rank NODE_RANK] [--launcher LAUNCHER] [--launcher_args LAUNCHER_ARGS] [--module] [--no_python] [--no_local_rank] [--no_ssh] [--no_ssh_check] [--force_multi] [--save_pid] [--enable_each_rank_log ENABLE_EACH_RANK_LOG] [--autotuning {tune,run}] [--elastic_training] [--bind_cores_to_rank] [--bind_core_list BIND_CORE_LIST] [--ssh_port SSH_PORT] [--venv_script VENV_SCRIPT] [--log_level {debug,info,warning,error,critical}] [-q] user_script ... deepspeed: error: unrecognized arguments: --deepspeed_config finetune.py:未找到命令 bash: /mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/finetune: 是一个目录 bash: /mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/cache/models--zai-org--GLM-Z1-32B-0414/snapshots/8eb2858992c1f749e2a6d4075455decc2484722d: 是一个目录 bash: configs/lora.yaml: 权限不够
10-23
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值