Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

部署运行你感兴趣的模型镜像
一水 发自 凹非寺
量子位 | 公众号 QbitAI

还没等到官宣,Deepseek-v3竟意外曝光了?!

5669999561f4f42c18639a9eccefb362.png

据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。

2f36581afceb3a8e6ba5c6ab76358573.png

在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude 3.5 Sonnet,排在第1位的o1之后。

(相比Deepseek-v2.5,完成率从17.8%大幅上涨至48.4%。)

4a53ca498c3d14bbbfda1e7d3e6788f8.png

且在LiveBench测评中,它是当前最强开源LLM,并在非推理模型中仅次于gemini-exp-1206,排在第二。

622e9aac3eabd28339ba559377f68cf6.png

目前Hugging Face上已经有了Deepseek-v3(Base)的开源权重,只不过还没上传模型介绍卡片。

0580dedd55676d319066571fbcecbeea.png

综合网上多方爆料来看,Deepseek-v3相比前代v2、v2.5有了极大提升——

与v2、v2.5配置对比

首先,Deepseek-v3基本配置如下:

  • 采用685B参数的MoE架构;

  • 包含256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家 (Top-k=8);

  • 支持64K上下文,默认支持4K,最长支持8K上下文;

  • 约60个tokens/s;

BTW,在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本(该版本目前未发布)。

a7d1120fdc57db79769170b1adad47a8.png

为了进一步了解Deepseek-v3的升级程度,机器学习爱好者Vaibhav (VB) Srivastav(以下简称瓦哥)还深入研究了配置文件,并总结出v3与v2、v2.5的关键区别

v2(今年5月6日官宣开源)比较的结果,经AI整理成表格如下:

821094f295310bfc0cf7cd2226f29352.png

可以看出,v3几乎是v2的放大版,在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化

第一,在MOE结构中,v3使用了sigmoid作为门控函数,取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择,而不像softmax函数倾向于将输入分配给少数几个专家。

第二,v3引入了一个新的Top-k选择方法noaux_tc,它不需要辅助损失。

简单理解,MoE模型通常需要一个辅助损失来帮助训练,主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下,直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。

对了,为便于理解,瓦哥用DeepSeek逐步解释了这一方法。

这是一种基于群体的专家选择算法,通过将专家划分为不同的小组,并在每个小组内部选择最优秀的k名专家。

e7d399b21fa1bf9a277fc0aeb7dbdb86.png

第三,v3增加了一个新参数e_score_correction_bias,用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。

29ac2636e6fef08a1150185ca3cf1a57.png

此外,v3与v2.5(本月10日官宣开源)的比较也出炉了,后者主要支持联网搜索功能,相比v2全面提升了各项能力。

fd810822d4f95c77691c3b9dba4ff418.png

同样经AI整理成表格如下:

d87beb0d7f4da07ad801ba098fc36703.png

具体而言,v3在配置上超越了v2.5,包括更多的专家数量、更大的中间层尺寸,以及每个token的专家数量。

看完上述结果,瓦哥连连表示,明年有机会一定要见见中国的开源团队。(doge)

056254a7375a0434849cdde175710570.png

网友实测Deepseek-v3

关于v3的实际表现,另一独立开发者Simon Willison(Web开发框架Django的创始人之一)也在第一时间上手测试了。

比如先来个自报家门。

我是DeepSeek-V3,基于OpenAI的GPT-4架构……

e614cbecedd30f2026c965e14f270a42.png
a2f3b63993d7b337cff15a7e519db65e.png

再考考图像生成能力,生成一张鹈鹕骑自行车的SVG图。

3676aaaf40c6b3f36f5216cc6604949b.png

最终图形be like:

cc5af0d67598acd6a54e5a787ed2cbfb.png

对了,在另一网友的测试中,Deepseek-v3也回答自己来自OpenAI??

69c1ee43987b59651dbb1ab404b0a3ff.png

该网友推测,这可能是因为在训练时使用了OpenAI模型的回复。

3e22aa400c8d04552ee7e39f9bdee7eb.png

不过不管怎样,还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座,在一些网友心中,这比只搞期货的OpenAI遥遥领先。(手动狗头)

83f3dfdb94516ecaebb6454a8415d6e3.png

抱抱脸:
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

参考链接:
[1]https://x.com/reach_vb/status/1871956999971414277
[2]https://simonwillison.net/2024/Dec/25/deepseek-v3/
[3]https://x.com/reach_vb/status/1872000205954089011
[4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/

—  —

点这里👇关注我,记得标星哦~

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型,用户只需输入视频和文字,就能为视频匹配电影级音效

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值