DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet对比实测来了

实测DeepSeek V3与Claude 3.5 Sonnet
部署运行你感兴趣的模型镜像
一水 发自 凹非寺
量子位 | 公众号 QbitAI

国产之光DeepSeek V3竞技场排名新鲜出炉——

优于o1-mini(总榜第7),获最强开源模型认证(也是唯一闯入前10的开源模型)。

2b18fb3cdf60ac6b84eda85a75a93811.png

单项上,在困难提示、编程、数学,写作等方面全面超越Claude 3.5 Sonnet

0992a852649fe9c82551b5c516183999.jpeg

不过,如果设置了风格控制,Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

(风格控制:剔除模型通过长篇且格式良好的回复来迎合人类偏好)

04bb63a8428c911c5a3c75bb94610089.png

由此也引发两边支持者激烈的争论:

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗?

2aeeb52107317a8564ff78e4da918ba8.png

带着同款好奇,量子位&网友实测这就奉上。

02f003a5935cd5bb3f1e53441552ae57.png

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜,一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子,老大叫一明,老二叫二明,老三叫什么?

DeepSeek V3回答正确。它先明确了题目要求,然后逻辑满分找出了正确答案(甚至还有自我验证)。

8736bbd66f2c72ab50b163d510328c3b.png

相比之下,Claude 3.5 Sonnet既正确又简洁。

442565cb9c400c3de80567ee6fc047fc.png

当然,考虑到脑筋急转弯这种东西也受东西文化差异影响,我们再来一道。

why are people tired on April Fool’s Day? (为什么人们在愚人节很累?)

答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军),March除了三月还有行军的意思,这里考察对双关的理解。

好嘛,DeepSeek V3果然歇菜了。从部分回答来看,它完全误解了题目意图,一本正经地回答是因为人们感到焦虑、熬夜之类。

d9648cfdaa80bf3d5321edcfc3c62d4a.png

而Claude 3.5 Sonnet稳稳守住了主场,也是轻轻松松get了双关。

9591095b60d7905bbf56a50a76c6bb6e.png

显而易见,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级,利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟,台下十年功,为何不在台上练功?

很好,DeepSeek V3又掉线了,精准踩进人类陷阱。(正能量满满可还行)

3ceb0f895fcf3c08bf4a837d4e92c7a1.png

不过别担心,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。

1a73530676ec6f69e847a6efea2b0cb4.png

看来面对充满心机的弱智吧问题,二位选手都不在状态。

Okk,不继续在这上面为难二位了,下面来一道正儿八经的“反转诅咒”(即知道A是B却不知道B是A)问题。

而两位选手都一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。

c7b045000de5ba68e1c6fc9b37944305.png
0037cda9b124c1277786a30e1a6ed186.png

考研数学真题

下面进入数学能力测试。比如这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:

c8509973e7fe340f9f793c89a361925f.png

直接上传截图,DeepSeek V3还是详细按步骤解答,而且也做对了。

c7a2906618d4c9a5d2d37598e8edd684.png

而Claude 3.5 Sonnet虽然看起来方法更简单,但最终答案错误,功亏一篑。

5e23163a248a27d6e83515ef6df83503.gif

编码能力

重头戏来了,最后来考查一下模型编码能力。

刚好有位𝕏网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub中分别用它俩创建网站

博主在测试之后,认为DeepSeek V3完全胜出

小结一下,从有限测试来看,DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

eded3630c7ad36369143780cf7e9a7b9.png

满血版o1空降第一

BTW,随着DeepSeek V3竞技场排名一起变动的,还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1,此次超越o1-preview 24分,空降总榜第一。

而且除了创意写作,各个单项都是第一。

822f95564131a54c1d173530e2956d4c.png

所以,对于这几家,大家在使用过程中感受如何呢??

d12db6ea5d0a5fba725e82a72445b4d0.png

竞技场试玩:
https://lmarena.ai/

参考链接:
https://x.com/lmarena_ai/status/1873695386323566638

—  —

点这里👇关注我,记得标星哦~

您可能感兴趣的与本文相关的镜像

Qwen-Image

Qwen-Image

图片生成
Qwen

Qwen-Image是阿里云通义千问团队于2025年8月发布的亿参数图像生成基础模型,其最大亮点是强大的复杂文本渲染和精确图像编辑能力,能够生成包含多行、段落级中英文文本的高保真图像

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值