DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

实测DeepSeek V3与Claude 3.5 Sonnet

转载于 2024-12-31 12:28:37 发布 · 662 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247770341&idx=2&sn=92f9dc47a3bc1f5bb77eded96e5e5343&chksm=e976c716e1f9877c635506a1dcb47432437f5cd30ec0cef44d63ca094888011b92893f68fd6d&scene=126&sessionid=0

部署运行你感兴趣的模型镜像

一水发自凹非寺
量子位 | 公众号 QbitAI

国产之光DeepSeek V3竞技场排名新鲜出炉——

优于o1-mini（总榜第7），获最强开源模型认证（也是唯一闯入前10的开源模型）。

单项上，在困难提示、编程、数学，写作等方面全面超越Claude 3.5 Sonnet。

不过，如果设置了风格控制，Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

（风格控制：剔除模型通过长篇且格式良好的回复来迎合人类偏好）

由此也引发两边支持者激烈的争论：

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗？

带着同款好奇，量子位&网友实测这就奉上。

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜，一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子，老大叫一明，老二叫二明，老三叫什么？

DeepSeek V3回答正确。它先明确了题目要求，然后逻辑满分找出了正确答案（甚至还有自我验证）。

相比之下，Claude 3.5 Sonnet既正确又简洁。

当然，考虑到脑筋急转弯这种东西也受东西文化差异影响，我们再来一道。

why are people tired on April Fool’s Day? （为什么人们在愚人节很累？）

答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军)，March除了三月还有行军的意思，这里考察对双关的理解。

好嘛，DeepSeek V3果然歇菜了。从部分回答来看，它完全误解了题目意图，一本正经地回答是因为人们感到焦虑、熬夜之类。

而Claude 3.5 Sonnet稳稳守住了主场，也是轻轻松松get了双关。

显而易见，Claude 3.5 Sonnet在第一关小试牛刀中全胜，而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级，利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟，台下十年功，为何不在台上练功？

很好，DeepSeek V3又掉线了，精准踩进人类陷阱。（正能量满满可还行）

不过别担心，你的难兄难弟Claude 3.5 Sonnet来陪你了(doge）。

看来面对充满心机的弱智吧问题，二位选手都不在状态。

Okk，不继续在这上面为难二位了，下面来一道正儿八经的“反转诅咒”（即知道A是B却不知道B是A）问题。

而两位选手都一次性答对了Mary Lee Pfeiffer（汤姆·克鲁斯的母亲）的儿子是谁。

考研数学真题

下面进入数学能力测试。比如这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：

直接上传截图，DeepSeek V3还是详细按步骤解答，而且也做对了。

而Claude 3.5 Sonnet虽然看起来方法更简单，但最终答案错误，功亏一篑。

编码能力

重头戏来了，最后来考查一下模型编码能力。

刚好有位𝕏网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试，在Scroll Hub中分别用它俩创建网站。

博主在测试之后，认为DeepSeek V3完全胜出。

小结一下，从有限测试来看，DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

满血版o1空降第一

BTW，随着DeepSeek V3竞技场排名一起变动的，还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1，此次超越o1-preview 24分，空降总榜第一。

而且除了创意写作，各个单项都是第一。

所以，对于这几家，大家在使用过程中感受如何呢？？

竞技场试玩：
https://lmarena.ai/

参考链接：
https://x.com/lmarena_ai/status/1873695386323566638

— 完 —

点这里👇关注我，记得标星哦～

您可能感兴趣的与本文相关的镜像

Qwen-Image

Qwen-Image

图片生成

Qwen

Qwen-Image是阿里云通义千问团队于2025年8月发布的亿参数图像生成基础模型，其最大亮点是强大的复杂文本渲染和精确图像编辑能力，能够生成包含多行、段落级中英文文本的高保真图像

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。