新版DeepSeek-R1-0528多项能力变弱!虽然推理能力变强

DeepSeek-R1首发于2025年1月底,而最新版本发布于5月58日,即DeepSeek-R1-0528。官方也给出了在主流英文评测集(偏向数学、推理及编程能力)上的前后效果对比,如下:

图片

那么在中文上的效果提升多少呢?我们基于8大领域(300多个细分维度)的中文评测给出回答:

类别

DeepSeek-R1

DeepSeek-R1-0528

变化

总分

80.9

81.7

+1%

医疗

82.3

80.7

-2%

教育

86.1

84.5

-2%

金融

82.9

78.0

-6%

法律

73.8

72.2

-2%

行政公务

84.7

96.7

+14%

心理健康

70.8

70.8

0%

推理与数学计算

83.2

87.7

+5%

语言与指令遵从

83.4

82.9

-1%

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

    总结

    • 显著增强行政公务、推理与数学计算 大幅优化。  
    • 变弱金融(↓4.9)、法律(↓1.6)、教育(↓1.6)、医疗(↓1.6) 均有所下降,其中金融领域降幅较大。  
    • 基本稳定:心理健康、语言与指令遵从变化极小。  

    新版在行政公务和推理与数学计算方面表现更优,但金融、法律、教育、医疗等专业领域能力略有下滑,可能因优化方向侧重不同。


    关于大模型评测NoneLinear:https://nonelinear.com

    1. 最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度

    2. 最新——每周更新大模型排行榜

    3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

    4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯

    5. 错题本——百万级大模型缺陷库

    6. 免费——为您的私有模型提供免费的全方位评测服务,欢迎私信

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值