大家好,我是安仔,一个每天都在压榨 AI 的躺平打工人。
嘻嘻,大好事,安仔的 AI 小弟偷摸升级了!
3 月 24 日深夜,DeepSeek 团队低调的发布了 DeepSeek-V3-0324 版本。
官方定位是“小版本迭代”,但是经过实际测试后发现,能力提升可不小哦。
这次更新在代码能力、数学推理和前端开发等多个关键领域都实现了显著突破,性能直逼行业顶尖的 Claude 3.7 Sonnet!
升级后的 V3 有多强?
有多强?看上图,就是这么强!
当然,DeepSeek-V3-0324 最引人注目的进步体现在编程能力上。
在 Aider LLM 基准测试中,它的多语言编程得分达到 55%,超越了 OpenAI 的 o3-mini,接近自家推理模型 R1 的水平。
同时,V3-0324 的成本也仅仅是 R1 的 1/5。
实际测试中,该模型仅用简单提示词就能生成超过 800 行无错误的 HTML/CSS/JS 登录页面代码,质量与 Claude 3.7 相当。
甚至在某些密码破解测试中以 60 秒的成绩完胜 Claude 3.7 的 5 分钟表现。
啧啧啧,真不错啊,以后写代码更方便啦。
而且这意味着什么?不需要带着魔法用 Cursor 就可以达到几乎相同的效果咯 ~ 支持国产,走起!
同时,数学推理能力同样获得长足进步。
V3-0324 成功解答了多个此前大模型普遍错误的数学难题,展现出接近推理模型的解题能力。
硬件适配性方面,新版本在 512GB M3 Ultra Mac Studio 上实现了每秒 20 个 token 的生成速度,相比前代显著提升,使得本地部署成本大幅降低。
当然,就这……安仔也是买不起哦哈哈哈。
和 Claude 3.5 Sonnet PK 一下!
在模型竞技场的多项对比测试中,DeepSeek-V3-0324 展现出与 Claude 3.5 Sonnet 分庭抗礼的实力。
编程能力方面,国外评测平台 kcores-llm-arena 数据显示,V3-0324 以 328.3 分的成绩超越 Claude 3.5 Sonnet 普通版(322.3 分),接近其思维链版本(334.8 分)。
国外博主 Xeophon 的内部测试集也显示,V3-0324 综合能力已超越 Claude 3.5 Sonnet,成为当前最好的非推理模型。
不过,两类模型各有所长。
Claude 3.5 Sonnet 在复杂双关语理解和西方文化背景的问题处理上仍具优势,而 V3-0324 则在中文本地化、数学推理和前端代码生成方面表现更优。
例如在解答曲面积分等高数难题时,V3-0324 能给出详细正确的步骤,而 Claude 3.5 Sonnet 则可能因关键环节失误而犯错。
是时候期待一下 DeepSeek-R2 啦
这次更新也预示着 DeepSeek 技术路线的清晰化。
DeepSeek 一贯的模式是基础模型比专门的推理模型早几周推出。此次 V3-0324 的推出,从发布时间和技术特点上来看,很可能是为 R2 做铺垫。
而 R2 有望在未来几个月内发布,性能可能直接对标 OpenAI 的 GPT-5。
想想就刺激,我的 AI 小弟们,赶紧卷起来!