DeepSeek极端榨取硬件性能被曝光

最新推荐文章于 2025-03-13 17:57:58 发布

极道Jdon

最新推荐文章于 2025-03-13 17:57:58 发布

阅读量949

点赞数 18

文章标签： javascript reactjs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cfy_banq/article/details/145397573

版权

DeepSeek 的出现是否意味着前沿 LLM 开发不再需要大规模 GPU 集群？

简单来说：不是的。虽然 DeepSeek 的 V3 模型通过一些非常厉害的优化技术，让 GPU 的使用效率变得更高了，但这并不意味着像 Google、OpenAI、Meta 和 xAI 这些公司之前花大钱搞的大规模 GPU 集群就没用了。AI 开发者的普遍看法是，大规模 GPU 集群仍然是训练顶尖 AI 模型的关键。

DeepSeek 做了什么？
DeepSeek 的 V3 模型通过一些“底层魔法”级别的优化，把 GPU 的性能榨干到了极限。

DeepSeek V3是一个低级别的（low level）技术，适用于需要高性能计算的场景。

它通过使用GPU来加速处理，特别是对于需要大量并行计算的任务。

DeepSeek在用 NVIDIA的 H800 GPU 训练 V3 时，对 GPU 的核心计算单元（SM，流多处理器）进行了定制化调整：DeepSeek V3利用了NVIDIA的H800 GPU，该GPU具有132个SM（Streaming Multiprocessor），每个SM有20个SMG（Streaming Multiprocessor Group）。

具体来说，他们把 132 个 SM 中的 20 个专门用来处理服务器之间的通信任务，而不是计算任务。

这种调整是在 PTX（并行线程执行）级别进行的，PTX 是一种接近汇编语言的低级指令集，可以

最低0.47元/天解锁文章

博客等级

码龄19年

340
原创

2215
点赞

2359
收藏

1618
粉丝

关注

私信

热门文章

分类专栏

最新评论

VMware被收购裁员对Spring框架有影响吗？
组合缺一: 推荐：Solon 是另一个 Java 语言的生态型应用开发框架，也是 DI 架构，国产。
Clace和sqlite-fs：使用SQLite替代文件系统
穷苦书生_万事愁: 这篇关于Clace和sqlite-fs的文章让我对SQLite替代文件系统这一主题有了全新的认识，博主的细节描写非常到位，展现了深厚的专业功底。期待博主未来能够持续分享更多类似的好文，希望在博主的指导下共同进步。感谢博主的分享和支持！
从元语言角度评价华为仓颉
征途黯然.: 这篇文章对于从元语言角度评价华为仓颉提供了很多信息，有了更全面的了解。
本周10个Github有趣项目WebLlama等
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/618615715。
我是一名程序员而且我很蠢
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。