【薇❤️】ai-xiao-mi-shu,➡️👗,保持与行业前沿同步!!!
DeepSeek-R1首发于2025年1月底,而最新版本发布于5月58日,即DeepSeek-R1-0528。官方也给出了在主流英文评测集(偏向数学、推理及编程能力)上的前后效果对比,如下:
那么在中文上的效果提升多少呢?我们基于8大领域(300多个细分维度)的中文评测给出回答:
类别 |
DeepSeek-R1 |
DeepSeek-R1-0528 |
变化 |
总分 |
80.9 |
81.7 |
+1% |
医疗 |
82.3 |
80.7 |
-2% |
教育 |
86.1 |
84.5 |
-2% |
金融 |
82.9 |
78.0 |
-6% |
法律 |
73.8 |
72.2 |
-2% |
行政公务 |
84.7 |
96.7 |
+14% |
心理健康 |
70.8 |
70.8 |
0% |
推理与数学计算 |
83.2 |
87.7 |
+5% |
语言与指令遵从 |
83.4 |
82.9 |
-1% |
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
总结
- 显著增强:行政公务、推理与数学计算 大幅优化。
- 变弱:金融(↓4.9)、法律(↓1.6)、教育(↓1.6)、医疗(↓1.6) 均有所下降,其中金融领域降幅较大。
- 基本稳定:心理健康、语言与指令遵从变化极小。
新版在行政公务和推理与数学计算方面表现更优,但金融、法律、教育、医疗等专业领域能力略有下滑,可能因优化方向侧重不同。