
deepseek
文章平均质量分 63
莫莫莫i
这个作者很懒,什么都没留下…
展开
-
DeepSeek开源周,第六弹再次来袭,DeepSeek-V3/R1推理系统总结
DeepSeek-V3/R1 推理系统通过跨节点 EP、计算-通信重叠和负载均衡技术,实现了高吞吐量和低延迟,同时通过动态资源分配优化了成本和性能。原创 2025-03-01 18:33:42 · 605 阅读 · 0 评论 -
DeepSeek开源周,第五弹再次来袭,3FS
在 180 个存储节点(每个节点配备 2×200Gbps InfiniBand NIC 和 16 个 14TiB NVMe SSD)的集群中,通过 500+ 客户端节点进行读压力测试,实现了约 6.6 TiB/s 的聚合读吞吐量。其出色的性能表现(如 6.6 TiB/s 的读吞吐量)和多样化工作负载支持,使其成为大规模 AI 应用的理想选择。在 25 个存储节点和 50 个计算节点的集群中,对 110.5 TiB 数据进行排序,耗时 30 分 14 秒,平均吞吐量为 3.66 TiB/min。原创 2025-02-28 09:41:37 · 642 阅读 · 0 评论 -
DeepSeek开源周,第四弹再次来袭,优化并行策略
DeepSeek - V3论文中采用冗余专家策略,即复制负载较重的专家,然后启发式地将复制后的专家分配到GPU上,以确保不同GPU间的负载平衡。但与预填充阶段不同,解码阶段的全连接通信不占用GPU SMs,即在发出RDMA消息后,所有GPU SMs被释放,系统在计算完成后等待全连接通信结束。表示为(PP/2 - 1)(F&B + B - 3W),有2×参数,激活为PP + 1 ,F&B表示两个相互重叠的前向和后向块的执行时间。不考虑专家组,全局复制专家,然后将复制后的专家分配到各个GPU。原创 2025-02-27 11:27:52 · 912 阅读 · 0 评论 -
DeepSeek开源周,第三弹再次来袭,DeepGEMM
专为NVIDIA Hopper张量核心设计,支持普通GEMM和MoE分组GEMM,计算效率突破。支持预填充(Prefilling)和解码(Decoding)阶段,适配Transformer和MoE结构。在大型模型推理中,矩阵乘法(GEMM)是计算的核心瓶颈。它凭借极简代码(核心仅300行)、的特性,以及针对Hopper架构的极致优化,性能超越主流库,为大模型推理提速高达。仅需1个核心函数,代码量约300行,学习FP8矩阵乘法优化的绝佳范本。基于JIT(即时编译)实现,安装即用,无需复杂环境配置。原创 2025-02-26 09:59:56 · 358 阅读 · 0 评论 -
DeepSeek开源周,第二弹再次来袭,DeepEP
很高兴介绍 DeepEP——第一个用于 MoE 模型训练和推理的开源 EP 通信库。OpenSourceWeek第 2 天:DeepEP。✅节点内和节点间均支持 NVLink 和 RDMA。✅灵活的 GPU 资源控制,实现计算-通信重叠。✅用于训练和推理预填充的高吞吐量内核。✅用于推理解码的低延迟内核。✅原生 FP8 调度支持。✅高效、优化的全员沟通。原创 2025-02-25 10:58:04 · 217 阅读 · 0 评论 -
DeepSeek携手FlashMLA横空出世,主宰Hopper GPU,性能炸裂!
很荣幸与大家分享 FlashMLA - 我们为 Hopper GPU 开发的高效 MLA 解码内核,针对可变长度序列进行了优化,目前已投入生产。1:BF16 支持,2:分页 KV 缓存(块大小 64),3: H800 上内存受限 3000 GB/s,计算受限 580 TFLOPS。原创 2025-02-24 10:54:31 · 224 阅读 · 0 评论