在最近几轮大模型迭代中,DeepSeek 的动作一向低调。
3 月 24 日,其 V3 系列最新版本 DeepSeek V3-0324 悄然上线 Hugging Face和多个平台接口中。没有正式公告,没有社交平台预热,这个版本的更新依旧延续了 DeepSeek 一贯的风格:实用为先,话不多说。
但正是这样一则“没有太多动静”的更新,在开发者社区悄然引发了连锁反应。实测截图、代码生成结果、前端渲染视频相继出现,V3-0324 的性能和定位逐渐被揭开,并迅速获得了大量工程从业者的关注。
技术路径延续 MoE,设计更细致
V3-0324 延续了 DeepSeek 一贯采用的 Mixture of Experts (MoE) 架构思路。整体参数量达 6850 亿,但每次推理只激活其中的 370 亿。这一设计旨在在保持模型整体容量的同时,压缩推理时的资源消耗,提高执行效率。
此次更新在以下关键点上做出调整:
-
激活专家数量从 160 增至 256,提高了任务调度的细粒度,有助于模型在处理不同任务时调用更合适的子模型。
-
采用 FP8 精度训练,训练与推理效率大幅提升,这一细节对于部署成本控制具有实际意义。