2025 年 1 月,DeepSeek - R1 以逼近 OpenAI o1 的性能表现,在业界引起轰动。其采用的混合专家架构(MoE)与 FP8 低精度训练技术,将单次训练成本大幅压缩至 557 万美元,比行业平均水平降低 80%。这一成果不仅是算法上的重大突破,更意味着 AI 产业底层逻辑正发生深刻变革,服务器产业也随之面临从单纯 “堆砌硬件” 到全面 “系统重构” 的关键转型。
模型架构变革对服务器硬件提出新要求
DeepSeek - V3 的 MoE 架构创新性地平衡了参数规模与计算效率,在 6710 亿总参数中仅激活 370 亿,通过动态路由机制重构了大模型的计算拓扑。这种 “稀疏激活” 特性,对服务器硬件产生了三方面的变革性需求:
- 异构计算能力:MoE

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



