“源神”DeepSeek!突破H800性能上限,FlashMLA重磅开源,算力成本还能降

部署运行你感兴趣的模型镜像
白交 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek开源周第一天,降本大法公开——

FlashMLA,直接突破H800计算上限。

b8739d17ae744977bcc3fe49e67355d4.png

网友:这怎么可能??

cd82f83b7a673cdf9298dc5e6995d624.png

它是为Hopper GPU开发的高效MLA解码内核,专门针对可变长度序列进行了优化,目前已经投入生产。

MLA,正是DeepSeek提出的创新注意力架构。从V2开始,MLA使得DeepSeek在系列模型中实现成本大幅降低,但是计算、推理性能仍能与顶尖模型持平。

按照官方介绍来说,FlashMLA使用之后,H800可以达到3000GB/s内存,实现580TFLOPS计算性能

网友们纷纷点赞:向工程团队致以崇高的敬意,从Hopper的张量核中挤出了每一个FLOP。这就是我们将 LLM 服务推向新前沿的方式!

4b329ad094351a1d0e73a69afb93f5fd.png

已经有网友用上了。

3cd1a7f9e6299639440ee0f9014c45d8.png

开源第一天:FlashMLA

目前GitHub页面已经更新。短短一小时,Star星数已经超过1.2k。

e32a7890c283337505fc1021a3d0d48e.png

此次已经发布:

  • 支持BF16;

  • 分页KV缓存,块大小为 64

快速启动:

c391c130e95467f949c3e678b413397a.png

环境要求:

  • Hopper GPU

  • CUDA 12.3 及以上版本

  • PyTorch 2.0 及以上版本

在项目的最后,它还表示,这是受到了FlashAttention 2&3英伟达CUTLASS项目的启发。

3841771dacfdf7bbcfc2c9dc08caa3d6.png

FlashAttention是能实现快速且内存高效的精确注意力,主流大模型都有在用。最新的第三代,可以让H100利用率飙升至75%训练速度提升1.5-2倍,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量75%,更充分利用计算资源,此前只能做到35%。

核心作者是Tri Dao,普林斯顿大牛,Together AI的首席科学家。

而英伟达CUTLASS是CUDA C++ 模板抽象的集合,用于在 CUDA 内实现高性能矩阵-矩阵乘法 (GEMM) 和所有级别和规模的相关计算。

MLA,DeepSeek基本架构

最后再来说说,MLA,多头潜在注意力机制,DeepSeek系列模型的基本架构,旨在优化Transformer模型的推理效率与内存使用,同时保持模型性能。

它通过低秩联合压缩技术,将多头注意力中的键(Key)和值(Value)矩阵投影到低维潜在空间,从而显著减少键值缓存(KV Cache)的存储需求。这种方法在长序列处理中尤为重要,因为传统方法需要存储完整的KV矩阵,而MLA通过压缩仅保留关键信息。

V2版本中,这一创新性架构把显存占用降到了过去最常用的MHA架构的5%-13%,实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。

而在V3,这一降本提速就更为明显,直接让DeepSeek吸引全球目光。

5dc8ecf316eb95d7d63f41979e7ff715.png

也就在今天,DeepSeek-R1 在HuggingFace上获得了超过10000个赞,成为该平台近150万个模型之中最受欢迎的大模型。

HuggingFace CEO发文公布了这一喜讯。

e68c86a8717237c9dfb09b309d6efda6.png

The whale is making waves!鲸鱼正在掀起波浪!

9331530f145906d68379c15b080308bb.png

好了期待一下,接下来的四天会发些什么呢?

GitHub链接:
https://github.com/deepseek-ai/FlashMLA
参考链接:
https://x.com/deepseek_ai/status/1893836827574030466

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值