
计算机体系结构
文章平均质量分 93
神一样的老师
这个作者很懒,什么都没留下…
展开
-
DeepSeek跳过了CUDA,这是一个误解
在合并数据的时候,也有三个步骤:一是通过英伟达高速互连线把数据发出去,二是把数据从英伟达高速互连线转到无限带宽网络上,同时把数据加起来,三是通过无限带宽网络接收数据并且加起来。同样,在数据合并过程中,(1)NVLink 发送、(2)NVLink 到 IB 转发与累加,以及(3)IB 接收与累加,也由动态调整的线程束处理。具体来说,我们采用了定制的并行线程执行(PTX)指令,并自动调整通信块大小,这显著减少了二级缓存(L2 cache)的使用以及对其他 SM 的干扰。这个也是导致英伟达股价暴跌的原因之一。原创 2025-02-11 11:06:51 · 1619 阅读 · 0 评论 -
CUDA 的编译过程
最近DeepSeek的火爆带火了一个词PTX,很多人说DS使用PTX绕过了英伟达的CUDA生态,其实这里面有很深的误解,今天简单介绍一下英伟达CUDA的编译过程。从上面的过程可以看出,DS并没有绕开英伟达的GPU,只是相当于用汇编代码写了一些函数,从而获得了更高的执行效率。这种做法实际上和英伟达的技术绑得更紧了。原创 2025-02-11 10:30:55 · 1120 阅读 · 0 评论