pytroch分布式
文章平均质量分 87
pytorch分布式的一些使用和案例分享,着力于合理的利用GPU资源
king of code porter
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek-R1-Distill大模型微调实战
指标数值训练时间(2×RTX4090)3.2小时显存占用(每卡)18GB推荐准确率92.3%平均响应时间1.4秒数据质量优先:500+条高质量样本即可获得不错效果渐进式调参:先小规模测试(100步)验证收敛性领域特征强化:特殊token和模板设计至关重要硬件高效利用:4bit+LoRA实现单卡微调通过本方案,我们成功将7B大模型转化为专业的民宿推荐助手,验证了DeepSeek-R1在垂直领域的强大潜力,这当中也有之前讲过的Accelerate 单机多卡使用指南。原创 2025-04-03 18:17:25 · 1084 阅读 · 0 评论 -
Accelerate 单机多卡使用指南
Accelerate是Hugging Face推出的PyTorch扩展库,旨在简化分布式训练流程。它提供了统一的API,让开发者可以用相同的代码在多种硬件配置上运行训练任务,主要特点包括:- 统一代码适配不同硬件(CPU/GPU/TPU)- 简化分布式训练配置- 自动处理混合精度训练- 内置模型保存/加载功能- 支持梯度累积等训练技巧。原创 2025-04-01 15:18:19 · 1462 阅读 · 0 评论
分享