
大语言模型
文章平均质量分 83
本专栏旨在深入探讨大语言模型(LLM)的基础知识,包括但不限于模型架构、训练方法、应用场景以及未来发展趋势。通过本专栏,读者将能够全面了解大语言模型的基础知识,为后续的进阶学习打下坚实的基础。
GODLIKENESS
沉迷于炼丹,从未放弃...
展开
-
大语言模型基础之‘显存优化‘
零冗余优化器(Zero Redundancy Optimizer, Zero),该技术由DeepSpeed代码库提出,主要用于解决数据并行中的模型冗余技术,即在数据并行训练中,每个GPU上都会存储一份完整的模型参数,这会占用大量的显存。下面将介绍三种逐步细化模型参数和优化器参数的方案。原创 2025-03-11 23:28:19 · 1035 阅读 · 1 评论 -
大语言模型基础之‘模型参数量计算‘
本篇中,将介绍如何计算基于transformer架构的大语言模型参数量计算。本篇计算量略大,建议耐心看完,相信会对大模型参数量计算有更深的理解。原创 2025-02-28 16:31:44 · 591 阅读 · 0 评论 -
大语言模型基础之‘可扩展的训练技术‘(二)
📌上篇介绍了3D并行训练,本篇主要介绍三块内容:零冗余优化器、激活重计算、混合精度训练。那么开始吧!🔅🔅🔅。原创 2025-02-27 17:37:06 · 817 阅读 · 0 评论 -
大语言模型基础之‘可扩展的训练技术’(一)
随着模型参数规模与数据规模的持续扩展,如何“优雅的”在有限计算资源下实现高效模型训练?原创 2025-02-26 17:24:16 · 1038 阅读 · 0 评论