新版DeepSeek-R1-0528多项能力变弱！虽然推理能力变强

最新推荐文章于 2025-09-16 01:44:34 发布

原创最新推荐文章于 2025-09-16 01:44:34 发布 · 447 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#AI大模型评测 #大模型评测 #大模型实测横评 #开源大模型评测 #deep see #deepseek #deepseekR1-0528

DeepSeek-R1首发于2025年1月底，而最新版本发布于5月58日，即DeepSeek-R1-0528。官方也给出了在主流英文评测集（偏向数学、推理及编程能力）上的前后效果对比，如下：

那么在中文上的效果提升多少呢？我们基于8大领域（300多个细分维度）的中文评测给出回答：

类别	DeepSeek-R1	DeepSeek-R1-0528	变化
总分	80.9	81.7	+1%
医疗	82.3	80.7	-2%
教育	86.1	84.5	-2%
金融	82.9	78.0	-6%
法律	73.8	72.2	-2%
行政公务	84.7	96.7	+14%
心理健康	70.8	70.8	0%
推理与数学计算	83.2	87.7	+5%
语言与指令遵从	83.4	82.9	-1%

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

总结

显著增强：行政公务、推理与数学计算 大幅优化。
变弱：金融（↓4.9）、法律（↓1.6）、教育（↓1.6）、医疗（↓1.6） 均有所下降，其中金融领域降幅较大。
基本稳定：心理健康、语言与指令遵从变化极小。

新版在行政公务和推理与数学计算方面表现更优，但金融、法律、教育、医疗等专业领域能力略有下滑，可能因优化方向侧重不同。

关于大模型评测NoneLinear：https://nonelinear.com

最全——全球最全大模型评测平台，已囊括200+大模型、300+评测维度
最新——每周更新大模型排行榜
最方便——无需注册/梯子，国内外各个大模型可一键评测
结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯
错题本——百万级大模型缺陷库
免费——为您的私有模型提供免费的全方位评测服务，欢迎私信

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。