分布式训练
文章平均质量分 96
丁学文武
打球、跑步、徒步、露营️、骑行、滑雪️、游泳、冲浪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型必知基础知识:7、Transformer架构-大模型微调作用和原理详解
大模型微调技术解析:从通用到专业的AI进化之路 本文系统介绍了Transformer架构中大模型微调的核心技术。首先阐述了预训练大模型在专业领域应用时的局限性,指出微调在提升领域专业性、优化输出风格和降低训练成本方面的关键价值。随后详细解析了双阶段训练原理,包括预训练的基础知识积累和微调的专业能力培养。文章重点探讨了多种微调方法:全量微调的参数全面更新、参数高效微调(PEFT)的灵活调整策略、适配器插入的轻量改造以及低秩矩阵微调(LoRA)的高效优化。最后介绍了数据准备和开源训练框架(如DeepSpeed、原创 2025-10-20 10:39:38 · 825 阅读 · 0 评论 -
大模型原理与实践:第六章-大模型训练流程实践_第3部分-高效微调(LoRA)
本文介绍了大模型高效微调方法,重点分析了LoRA技术原理。针对全量微调的资源消耗大、训练时间长、过拟合风险高等问题,对比了Adapter Tuning、Prefix Tuning和LoRA三种高效微调方案。LoRA通过低秩分解表示权重更新,仅需训练少量参数,具有无推理延迟、可与其他方法组合等优势。文章详细阐述了LoRA的低秩参数化原理、前向传播公式和初始化策略,指出其仅需更新(d+k)×r个参数,相比全量微调可达到1/256的压缩比。最后强调LoRA是目前平衡性最佳的高效微调方案。原创 2025-10-09 07:15:00 · 1057 阅读 · 0 评论 -
大模型原理与实践:第六章-大模型训练流程实践_第1部分-模型预训练(Trainer、DeepSeed)
本文摘要:第六章重点介绍大模型训练流程实践,基于Transformers框架实现高效训练。首先分析手写LLM训练的局限性,指出主流框架的优势在于模型加载便捷、支持分布式训练、生态完善等。详细讲解初始化LLM的步骤,包括下载模型配置文件和加载参数配置,以Qwen-2.5-1.5B模型为例说明具体操作方法。该章为后续预训练和微调实践奠定基础,帮助读者掌握业界主流LLM技术方案。原创 2025-10-08 07:30:00 · 754 阅读 · 0 评论 -
大模型分布式训练(DP、TP、PP、CP、EP、SP)六大并行策略深度解析-从原理到实践
本文深入解析了大模型训练的六种分布式并行策略:基础并行策略(数据并行DP、张量并行TP、流水线并行PP)、长序列并行策略(序列并行SP、上下文并行CP)和稀疏化并行策略(专家并行EP)。作者结合实践经验,详细介绍了每种策略的核心原理、实现方式和优缺点,特别强调了数据并行中的All-Reduce操作、张量并行的矩阵分割技巧以及流水线并行的微批次调度方法。文章还提到ZeRO优化技术如何解决内存瓶颈问题,并分享了实际应用中的配置建议,为大规模模型训练提供了实用的技术指导。原创 2025-08-25 08:00:00 · 3617 阅读 · 0 评论
分享