
模型训练
文章平均质量分 70
AI模型训练方法、技术
loong_XL
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
unsloth GRPO强化训练自己的离线R1 reasoning model;Qwen2.5 1.5B训练案例
参考:1、使用15 GB VRAM,Unsloth允许您将多达15 B参数的任何模型(如Llama 3.1(8B),Phi-4(14 B),Mistral(7 B)或Qwen2.5(7 B))转换为推理模型2、请注意,这不是对DeepSeek的R1蒸馏模型进行微调,也不是使用R1的蒸馏数据进行Unsloth已经支持的调优。这是使用GRPO将标准模型转换为成熟的推理模型。原创 2025-02-07 09:18:42 · 441 阅读 · 0 评论 -
PEFT qwen2 lora微调模型训练案例
参考:https://github.com/huggingface/peft##文档https://huggingface.co/docs/peft/indexhttps://www.wehelpwin.com/article/4299https://www.ethanzhang.xyz/2024/07/09/%E3%80%90%E4%B8%AA%E4%BA%BA%E5%8D%9A%E5%AE%A2%E3%80%91%E4%BD%BF%E7%94%A8huggingface%E5%9C%A8%E5%8原创 2024-08-28 09:26:58 · 921 阅读 · 0 评论 -
bitsandbytes使用错误:CUDA Setup failed despite GPU being available
参考:https://huggingface.co/docs/bitsandbytes/main/en/installation报错信息版本:Cuda本身拥有两个API,分别是cuda driver version 和 cuda runtime version。1、nvidia-smi查看的是cuda driver version版本(如图1)原创 2024-08-27 19:31:32 · 435 阅读 · 0 评论 -
pytorch FSDP分布式训练minist案例
它的主要目标是解决在多GPU和多节点环境下训练大型模型的内存效率问题。FSDP通过将模型的参数、梯度和优化器状态分片到多个GPU上,从而允许在有限的内存资源下训练更大的模型。优化器状态分片:优化器的状态也会被分片,每个GPU只维护与其参数分片对应的优化器状态。梯度分片:梯度也会被分片,每个GPU只计算和存储与其参数分片对应的梯度。参数分片:将模型的参数分片到多个GPU上,每个GPU只保存一部分参数。通信优化:通过减少通信量和优化通信模式,提高训练效率。fsdp这份代码训练是在单机多卡,两卡上运行的。原创 2024-08-26 10:25:53 · 387 阅读 · 0 评论 -
huggingface accelerate 多机多卡DDP分布式训练案例
参考:https://www.bilibili.com/video/BV1jS411K72E/?spm_id_from=333.788&vd_source=34d74181abefaf9d8141bbf0d485cde7https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/deepspeed_accelerate/accelerate_basics_scripts.pyhttps://www.cnb原创 2024-06-17 14:52:59 · 647 阅读 · 0 评论 -
分布式训练多机(节点)数据并行的数据划分DistributedSampler
参考:分布式训练数据看样子和模型一样,每个节点都要拷贝,注意路径也要一样;DistributedSampler是分配每个gpu上的数据索引值列表。原创 2024-03-24 09:49:11 · 324 阅读 · 0 评论 -
docker方式进行pytorch多机多卡分布式训练
docker ip共享与gpu指定1)ip共享docker网络有多种,这里选择host直接用宿主机的ip2)指定gpu。原创 2024-03-21 11:20:34 · 1003 阅读 · 0 评论 -
torchrun、 torch.distributed.launch 多节点分布式训练使用案例
数据并行分布式图:梯度更新分布式训练参数含义:nnodes:节点的数量,通常一个节点对应一个主机,方便记忆,直接表述为主机node_rank:节点的序号,从0开始nproc_per_node:一个节点中显卡的数量-master_addr:master节点的ip地址,也就是0号主机的IP地址,该参数是为了让 其他节点 知道0号节点的位,来将自己训练的参数传送过去处理。原创 2024-03-14 15:46:52 · 1465 阅读 · 0 评论