NVIDIA开源FP8训练新范式COAT:减少40%显存占用,训练速度提高1.4倍

部署运行你感兴趣的模型镜像

https://mp.weixin.qq.com/s/OPPrnyj9366672-BWyrDkg

在深度学习快速发展的今天,大型语言模型(LLM)的训练面临着巨大的计算和内存压力。FP8低精度训练因其高效性备受关注,但现有方法仍无法充分优化内存使用。

COAT(Compressing Optimizer states And activations formemory-efficient FP8 Training)是伯克利、英伟达、MIT 和清华的研究者们提出的一种新方法。它通过DynamicRange Expansion和Mixed Granularity Quantization两大核心技术,实现Optimizer和Activation的FP8量化,从而将训练内存占用减少1.54倍,训练速度提升1.43倍,同时保持模型准确率。


COAT的出现使大型模型能够在更少的GPU上高效训练,并提升批量大小,为深度学习的规模化提供了新的可能。


论文标题:COAT: Compressing Optimizer States and Activation for memory efficient FP8 Training
论文链接:https://arxiv.org/abs/2410.19313
开源代码:https://github.com/NVlabs/COAT

3月22日上午11点 ,青稞Talk 第42期,COAT 第一作者、加州大学伯克利分校计算机科学博士生席浩诚,将直播分享《COAT:显存高效的 FP8 训练,实现高效深度学习》。

分享嘉宾

席浩诚是加州大学伯克利分校计算机科学博士一年级学生,导师是Kurt Keutzer教授,研究方向为大型语言模型和扩散模型的高效训练与推理。本科毕业于清华大学姚班,师从陈键飞教授和朱军教授。他曾在英伟达实习研究FP8训练方法。他曾在ICMl、Neurips、ICLR等顶级会议上发表多篇论文,他的主要研究成果包括Sparse VideoGen、COAT、Jetfire等。

主题提纲

COAT:显存高效的 FP8 训练,实现高效深度学习

1、大模型 FP8 低精度训练的难点
2、COAT 框架两大核心技术
- 动态范围扩展 FP8 量化优化器状态
- 混合粒度 FP8 精度流
3、效果展示及应用实践

直播时间

3月8日(周六) 11:00 -12:00

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值