DeepSeek-V3“小幅升级”后,准备“吊打”Claude3.5 了?

大家好,我是安仔,一个每天都在压榨 AI 的躺平打工人。

嘻嘻,大好事,安仔的 AI 小弟偷摸升级了!

3 月 24 日深夜,DeepSeek 团队低调的发布了 DeepSeek-V3-0324 版本。

官方定位是“小版本迭代”,但是经过实际测试后发现,能力提升可不小哦。

这次更新在代码能力、数学推理和前端开发等多个关键领域都实现了显著突破,性能直逼行业顶尖的 Claude 3.7 Sonnet!

升级后的 V3 有多强?

有多强?看上图,就是这么强!

当然,DeepSeek-V3-0324 最引人注目的进步体现在编程能力上。

在 Aider LLM 基准测试中,它的多语言编程得分达到 55%,超越了 OpenAI 的 o3-mini,接近自家推理模型 R1 的水平。

同时,V3-0324 的成本也仅仅是 R1 的 1/5。

实际测试中,该模型仅用简单提示词就能生成超过 800 行无错误的 HTML/CSS/JS 登录页面代码,质量与 Claude 3.7 相当。

甚至在某些密码破解测试中以 60 秒的成绩完胜 Claude 3.7 的 5 分钟表现。

啧啧啧,真不错啊,以后写代码更方便啦。

而且这意味着什么?不需要带着魔法用 Cursor 就可以达到几乎相同的效果咯 ~ 支持国产,走起!

同时,数学推理能力同样获得长足进步。

V3-0324 成功解答了多个此前大模型普遍错误的数学难题,展现出接近推理模型的解题能力。

硬件适配性方面,新版本在 512GB M3 Ultra Mac Studio 上实现了每秒 20 个 token 的生成速度,相比前代显著提升,使得本地部署成本大幅降低。

当然,就这……安仔也是买不起哦哈哈哈。

和 Claude 3.5 Sonnet PK 一下!

在模型竞技场的多项对比测试中,DeepSeek-V3-0324 展现出与 Claude 3.5 Sonnet 分庭抗礼的实力。

编程能力方面,国外评测平台 kcores-llm-arena 数据显示,V3-0324 以 328.3 分的成绩超越 Claude 3.5 Sonnet 普通版(322.3 分),接近其思维链版本(334.8 分)。

国外博主 Xeophon 的内部测试集也显示,V3-0324 综合能力已超越 Claude 3.5 Sonnet,成为当前最好的非推理模型。

不过,两类模型各有所长。

Claude 3.5 Sonnet 在复杂双关语理解和西方文化背景的问题处理上仍具优势,而 V3-0324 则在中文本地化、数学推理和前端代码生成方面表现更优。

例如在解答曲面积分等高数难题时,V3-0324 能给出详细正确的步骤,而 Claude 3.5 Sonnet 则可能因关键环节失误而犯错。

是时候期待一下 DeepSeek-R2 啦

这次更新也预示着 DeepSeek 技术路线的清晰化。

DeepSeek 一贯的模式是基础模型比专门的推理模型早几周推出。此次 V3-0324 的推出,从发布时间和技术特点上来看,很可能是为 R2 做铺垫。

而 R2 有望在未来几个月内发布,性能可能直接对标 OpenAI 的 GPT-5。

想想就刺激,我的 AI 小弟们,赶紧卷起来!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白码上飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值