Deepseek开源周第一天打响!

今日deepseek开源周第一天打响!这次开源的是FlashMLA。主要用途在于 Hopper GPU 开发的高效 MLA 解码内核,针对可变长度序列进行了优化。专为大模型推理设计,已在生产环境部署。

在H800上能达到3000GB/s内存带宽和580TFLOPS算力。

简单理解就是:可以提升推理速度!FlashMLA 是 AI 的“加速器”

7829205f86bb4e794cb4266d17b47d33.png

而且该仓库在四个小时前发布后,已经获得4000star。

70723f91b85a69231145495b40ff15a6.png

项目地址:https://github.com/deepseek-ai/FlashMLA

上述介绍中提及的一些“技术黑话”都是什么意思?


变长度序列

“变长序列”是指 AI 处理的数据长度是可变的。

以提问为例,当你问一个简单问题。比如“今天天气怎么样?”时,AI 可能只给出简短的几个词作为回答;而当你提出一个复杂要求,比如“给我写一篇 500 字的故事”时,AI 就需要生成较长的回答内容。这种输入和输出的长度不固定,就是所谓的变长序列。


BF16 support

BF16是“Brain Floating Point 16”的缩写,它是一种数据格式。计算机在处理数字时,需要一种特定的方式来表示这些数字(类似于我们用十进制来书写数字)。BF16是一种“简化版”的格式,相较于传统的FP32(32位浮点数),它占用的存储空间更少,但仍然能够保持足够的精度。它特别适合用于AI计算,因为它能够加快计算速度,同时还能节省内存。


H800 Hopper GPU

这是NVIDIA Hopper系列中的一种GPU型号,相较于更高端的H100稍作简化,但在AI领域依然表现出色,非常强大。算是一种老的硬件内核。


Paged KV cache (block size 64)

KV缓存即“键值缓存”(Key-Value cache),是AI模型(尤其是像GPT这样的语言模型)用于“记录”之前计算结果的一种机制。可以这样理解,当你在解数学题时,如果把中间的计算结果先记在纸上,后续就不用重新计算了——KV缓存就相当于那张纸。

“分页”(Paged)表示将缓存分割成小块进行管理,而不是一次性将全部内容加载到内存中。“块大小64”意味着每一块缓存的容量为64个单元(具体单位依据模型设计而定,通常是一个词或token)。


意义

随着AI模型规模的不断扩大(常常达到数百亿参数),硬件资源和电费成本逐渐成为亟待解决的难题。FlashMLA通过优化技术,使得AI能够在普通硬件(例如H800)上高效运行,并且支持开源社区的使用。这种既经济实惠又实用的技术,有望让更多人有机会接触和使用顶级AI。甚至以后手机跑自己大规模参数的大模型可能性会越来越看。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值