OpenAI 还在酝酿大招，DeepSeek 已经悄悄发布了“Claude 杀手”

破晓AI研究院

于 2025-03-25 14:19:20 发布

阅读量545

点赞数 14

文章标签：人工智能 AIGC 语言模型 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_30680739/article/details/146502235

版权

在最近几轮大模型迭代中，DeepSeek 的动作一向低调。

3 月 24 日，其 V3 系列最新版本 DeepSeek V3-0324 悄然上线 Hugging Face和多个平台接口中。没有正式公告，没有社交平台预热，这个版本的更新依旧延续了 DeepSeek 一贯的风格：实用为先，话不多说。

但正是这样一则“没有太多动静”的更新，在开发者社区悄然引发了连锁反应。实测截图、代码生成结果、前端渲染视频相继出现，V3-0324 的性能和定位逐渐被揭开，并迅速获得了大量工程从业者的关注。

技术路径延续 MoE，设计更细致

V3-0324 延续了 DeepSeek 一贯采用的 Mixture of Experts (MoE) 架构思路。整体参数量达 6850 亿，但每次推理只激活其中的 370 亿。这一设计旨在在保持模型整体容量的同时，压缩推理时的资源消耗，提高执行效率。

此次更新在以下关键点上做出调整：

激活专家数量从 160 增至 256，提高了任务调度的细粒度，有助于模型在处理不同任务时调用更合适的子模型。
采用 FP8 精度训练，训练与推理效率大幅提升，这一细节对于部署成本控制具有实际意义。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。