幻方萤火 | 显存节省利器 CPUOffload

本文链接：https://blog.youkuaiyun.com/weixin_66945478/article/details/126847124

本文介绍了幻方萤火的CPUOffload技术，一种用于节省深度学习模型训练显存的方法。通过CPUOffload，可以在中间变量不被使用时将其移至CPU，减少显存占用。文章详细分析了PyTorch中的CPUOffload原理，并对比了幻方AI自研的hfai.nn.CPUOffload模块，展示了其在速度和灵活性上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CPUOffload

在深度学习模型的训练中，研究者与开发者们常常会碰到显存不足的问题 (OOM, out of memory) ，比如模型参数规模大，或者训练过程中产生的额外开销大，又或者是程序代码的问题，没有足够的显存资源，对我们科研与开发产生了诸多限制。

以往，我们通过代码优化、梯度累计、半精度等等一系列方法，以降低深度学习模型训练的显存需求，然而随着模型参数规模的发展，业务数据越来越复杂，显存需求快速增长，那么除了这些 trick 之外，还有什么既简单、又高效的显存节省方法吗？本期文章介绍的主角， hfai.nn.CPUOffload，给您提供一条不一样的显存节省之路。

那么 hfai.nn.CPUOffload 为什么可以节省显存？如何使用？它和 PyTorch 原始版本有何不同？本期文章将为大家分享 CPUOffload 设计背后的故事，讲述幻方 AI 设计 CPUOffload 的理念，展现 CPUOffload 的性能和便捷。