大模型评测【DeepSeek】|最新的DeepSeek-v3-0324相比旧版本提升了多少?哪方面提升最多?

DeepSeek-v3首发于2024年12月底,而最新版本发布于3月24日,即DeepSeek-v3-0324。官方也给出了在主流英文评测集上的前后效果对比,如下:

Model Performance

那么在中文上的效果提升多少呢?我们基于8大领域(300多个细分维度)的中文评测给出回答:

统计

deepseek-v3

deepseek-v3-0324

变化

总分

66.99

77.37

+15%

医疗

71.21

78.05

+10%

教育

77.04

85.46

+11%

金融

73.68

76.11

+3%

法律

39.57

61.50

+55%

行政公务

58.00

81.50

+41%

心理健康

56.00

64.62

+15%

推理与数学计算

81.08

86.25

+6%

语言与指令遵从

79.31

85.43

+8%

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

从上表可知:

  • DeepSeek-v3-0324总分提高了15%,算是稳步提升。

  • 而在法律和行政公务领域却有超出预期的巨幅改进,涨幅分别高达55%、41%。

  • 相比之下,在金融领域却只有3%的微小提升。


关于大模型评测EasyLLM:https://easyllm.site

  1. 最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度

  2. 最新——每周更新大模型排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯

  5. 错题本——百万级大模型错题本

  6. 免费——为您的私有模型提供免费的全方位评测服务,欢迎私信

图片

由于没有提供关于DeepSeek-V3-0324-M33模型权重各文件的具体引用内容,以下是关于深度学习模型权重文件一般作用的介绍。 在深度学习模型中,权重文件通常存储了模型在训练过程中学习到的参数。这些参数决定了模型的行为和性能。一般来说,模型权重文件可能会有以下几种常见情况: ### 主权重文件 主权重文件包含了模型大部分的核心参数,例如神经网络中神经元之间的连接权重、偏置等。这些参数决定了模型如何对输入数据进行变换和处理,以产生输出结果。在PyTorch框架中,主权重文件通常以 `.pth` 或 `.pt` 为扩展名,示例代码如下: ```python import torch # 加载主权重文件 model = ... # 定义模型结构 weights = torch.load('model_weights.pth') model.load_state_dict(weights) ``` ### 配置文件 配置文件可能包含了模型的一些元信息,如模型的架构、超参数设置等。这些信息对于正确加载和使用模型权重非常重要。配置文件可以是JSON、YAML等格式,示例代码如下: ```python import json # 加载配置文件 with open('model_config.json', 'r') as f: config = json.load(f) ``` ### 增量权重文件 在模型的持续训练或微调过程中,可能会产生增量权重文件。这些文件记录了模型在新数据上训练后参数的更新部分,用于在已有模型的基础上进行快速更新。 ### 优化器状态文件 优化器状态文件保存了优化器在训练过程中的状态信息,如学习率、动量等。这些信息对于恢复训练过程或继续在已有训练基础上进行训练非常有用。在PyTorch中,优化器状态文件也可以通过 `torch.save` 和 `torch.load` 进行保存和加载。 ### 相关问题 1. DeepSeek-V3-0324-M33模型的主权重文件有多大? 2. 如何判断DeepSeek-V3-0324-M33模型的配置文件是否正确? 3. DeepSeek-V3-0324-M33模型的增量权重文件是如何生成的? 4. 加载DeepSeek-V3-0324-M33模型权重文件时可能会遇到哪些问题? 5. DeepSeek-V3-0324-M33模型的优化器状态文件对模型训练有什么影响?
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值