DeepSeek
文章平均质量分 96
KIDGINBROOK
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek DeepEP学习(四)normal combine
首先回顾一下dispatch的过程,dispatch是两阶段的,第一阶段是机间同号gpu之间通过rdma的发送,第二阶段是机内通过nvlink的中转,rank0的视角如下所示,combine的过程就是原路返回。原创 2025-07-25 18:33:33 · 1582 阅读 · 0 评论 -
DeepSeek DeepEP学习(三)normal dispatch
上节介绍了DeepSeek DeepEP的normal kernel执行过程中会分成两部分,第一步通过notify_dispatch计算meta信息,然后本节介绍数据dispatch的过程。原创 2025-03-09 14:27:56 · 3641 阅读 · 19 评论 -
DeepSeek DeepEP学习(二)normal notify dispatch
dispatch的过程分为两步,第一步通过notify dispatch计算一些meta信息,比如每台机器将会收到多少token,然后再执行实际的dispatch,本节主要介绍notify dispatch。原创 2025-03-06 14:06:03 · 3076 阅读 · 17 评论 -
DeepSeek DeepEP学习(一)low latency dispatch
为了优化延迟,low lantency使用卡间直接收发cast成fp8的数据的方式,而不是使用normal算子的第一步执行机间同号卡网络发送,再通过nvlink进行转发的两阶段方式。进一步地,normal算子的dispatch包含了notify_dispatch传输meta信息和dispatch传输实际数据两个kernel,而low lantency也省去了notify的过程,为此需要的代价就是显存占用较高,而且也需要配合deepseek版本的gemm。原创 2025-03-04 23:09:09 · 4688 阅读 · 8 评论
分享