OpenAI 还在酝酿大招,DeepSeek 已经悄悄发布了“Claude 杀手”

图片

在最近几轮大模型迭代中,DeepSeek 的动作一向低调。

3 月 24 日,其 V3 系列最新版本 DeepSeek V3-0324 悄然上线 Hugging Face和多个平台接口中。没有正式公告,没有社交平台预热,这个版本的更新依旧延续了 DeepSeek 一贯的风格:实用为先,话不多说。

但正是这样一则“没有太多动静”的更新,在开发者社区悄然引发了连锁反应。实测截图、代码生成结果、前端渲染视频相继出现,V3-0324 的性能和定位逐渐被揭开,并迅速获得了大量工程从业者的关注。

技术路径延续 MoE,设计更细致

V3-0324 延续了 DeepSeek 一贯采用的 Mixture of Experts (MoE) 架构思路。整体参数量达 6850 亿,但每次推理只激活其中的 370 亿。这一设计旨在在保持模型整体容量的同时,压缩推理时的资源消耗,提高执行效率。

此次更新在以下关键点上做出调整:

  • 激活专家数量从 160 增至 256,提高了任务调度的细粒度,有助于模型在处理不同任务时调用更合适的子模型。

  • 采用 FP8 精度训练,训练与推理效率大幅提升,这一细节对于部署成本控制具有实际意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值