DeepSeek-R1首发于2025年1月底,而最新版本发布于5月58日,即DeepSeek-R1-0528。官方也给出了在主流英文评测集(偏向数学、推理及编程能力)上的前后效果对比,如下:
那么在中文上的效果提升多少呢?我们基于8大领域(300多个细分维度)的中文评测给出回答:
类别 | DeepSeek-R1 | DeepSeek-R1-0528 | 变化 |
总分 | 80.9 | 81.7 | +1% |
医疗 | 82.3 | 80.7 | -2% |
教育 | 86.1 | 84.5 | -2% |
金融 | 82.9 | 78.0 | -6% |
法律 | 73.8 | 72.2 | -2% |
行政公务 | 84.7 | 96.7 | +14% |
心理健康 | 70.8 | 70.8 | 0% |
推理与数学计算 | 83.2 | 87.7 | +5% |
语言与指令遵从 | 83.4 | 82.9 | -1% |
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
总结
- 显著增强:行政公务、推理与数学计算 大幅优化。
- 变弱:金融(↓4.9)、法律(↓1.6)、教育(↓1.6)、医疗(↓1.6) 均有所下降,其中金融领域降幅较大。
- 基本稳定:心理健康、语言与指令遵从变化极小。
新版在行政公务和推理与数学计算方面表现更优,但金融、法律、教育、医疗等专业领域能力略有下滑,可能因优化方向侧重不同。
关于大模型评测NoneLinear:https://nonelinear.com
-
最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度
-
最新——每周更新大模型排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯
-
错题本——百万级大模型缺陷库
-
免费——为您的私有模型提供免费的全方位评测服务,欢迎私信