参数量5B~20B中等尺寸大模型03.13——CLiB大模型排行榜

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。

以下为排行榜:

输出价格单位:(元/M tok)

排名

大模型

机构

输出价格

总分

1

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.70

72.2

2

qwen2.5-14b-instruct

阿里巴巴

6.00

72.1

3

internlm2_5-20b-chat

上海人工智能实验室

1.00

69.3

4

qwen2.5-7b-instruct

阿里巴巴

2.00

68.7

5

internlm2_5-7b-chat

上海人工智能实验室

0.35

67.2

6

glm-4-9b-chat

智谱AI

0.60

66.6

7

phi-4

微软

1.00

62.30

8

Yi-1.5-9B-Chat

零一万物

0.42

58.00

9

gemma-2-9b-it

Google

0.60

54.50

10

Llama-3.1-8B-Instruct

Meta

0.42

52.20

11

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.35

52.00

12

DeepSeek-R1-Distill-Llama-8B

深度求索

0.42

51.80

13

Mistral-Nemo-Instruct-2407

Mistral

0.58

51.60

14

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.36

50.90

15

Mistral-7B-Instruct-v0.3

Mistral

0.40

41.90

医疗领域排行榜:

医疗领域目前囊括8个维度: 医师考试-规培结业,医师考试-执业助理医师,医师考试-执业医师 ,医师考试-中级职称,医师考试-高级职称,护理考试-护士执业资格,护理考试-主管护师,护理考试-高级护师。其中规培结业含外科、皮肤科等18个方向,执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向,执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。

排名

大模型

机构

输出价格

医疗

1

qwen2.5-14b-instruct

阿里巴巴

6.00

68.7

2

internlm2_5-20b-chat

上海人工智能实验室

1.00

66.5

3

internlm2_5-7b-chat

上海人工智能实验室

0.35

66.0

4

qwen2.5-7b-instruct

阿里巴巴

2.00

65.9

5

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.70

63.9

6

glm-4-9b-chat

智谱AI

0.60

58.6

7

phi-4

微软

1.00

44.10

8

Llama-3.1-8B-Instruct

Meta

0.42

42.10

9

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.36

41.50

10

gemma-2-9b-it

Google

0.60

40.20

11

Mistral-Nemo-Instruct-2407

Mistral

0.58

36.20

12

DeepSeek-R1-Distill-Llama-8B

深度求索

0.42

29.30

13

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.35

28.90

14

Mistral-7B-Instruct-v0.3

Mistral

0.40

28.00

15

Yi-1.5-9B-Chat

零一万物

0.42

/

教育领域排行榜:

教育领域目前囊括4个维度:高考,高中各学科,初中各学科,小学各学科。

排名

大模型

机构

输出价格

教育

1

qwen2.5-14b-instruct

阿里巴巴

6.00

85.00

2

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.70

83.70

3

glm-4-9b-chat

智谱AI

0.60

81.30

4

qwen2.5-7b-instruct

阿里巴巴

2.00

80.50

5

internlm2_5-20b-chat

上海人工智能实验室

1.00

78.70

6

internlm2_5-7b-chat

上海人工智能实验室

0.35

72.90

7

Yi-1.5-9B-Chat

零一万物

0.42

69.80

8

phi-4

微软

1.00

66.70

9

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.35

62.60

10

gemma-2-9b-it

Google

0.60

62.30

11

DeepSeek-R1-Distill-Llama-8B

深度求索

0.42

58.40

12

Mistral-Nemo-Instruct-2407

Mistral

0.58

56.60

13

Llama-3.1-8B-Instruct

Meta

0.42

53.30

14

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.36

51.20

15

Mistral-7B-Instruct-v0.3

Mistral

0.40

47.20

法律领域排行榜:

法律领域目前囊括1个维度:JEC-QA律师资格考试。

排名

大模型

机构

输出价格

法律

1

internlm2_5-7b-chat

上海人工智能实验室

0.35

43.80

2

internlm2_5-20b-chat

上海人工智能实验室

1.00

42.70

3

qwen2.5-14b-instruct

阿里巴巴

6.00

42.60

4

qwen2.5-7b-instruct

阿里巴巴

2.00

42.50

5

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.70

42.30

6

glm-4-9b-chat

智谱AI

0.60

38.40

7

Yi-1.5-9B-Chat

零一万物

0.42

31.50

8

phi-4

微软

1.00

23.60

9

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.36

22.90

10

Llama-3.1-8B-Instruct

Meta

0.42

22.20

11

Mistral-Nemo-Instruct-2407

Mistral

0.58

20.90

12

DeepSeek-R1-Distill-Llama-8B

深度求索

0.42

19.90

13

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.35

19.50

14

gemma-2-9b-it

Google

0.60

19.10

15

Mistral-7B-Instruct-v0.3

Mistral

0.40

17.10

行政公务领域排行榜:

行政公务领域目前囊括1个维度:公务员考试。

排名

大模型

机构

输出价格

行政公务

1

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.70

68.00

2

qwen2.5-14b-instruct

阿里巴巴

6.00

67.00

3

internlm2_5-20b-chat

上海人工智能实验室

1.00

66.40

4

phi-4

微软

1.00

66.10

5

glm-4-9b-chat

智谱AI

0.60

64.10

6

internlm2_5-7b-chat

上海人工智能实验室

0.35

62.40

7

qwen2.5-7b-instruct

阿里巴巴

2.00

59.60

8

gemma-2-9b-it

Google

0.60

53.60

9

DeepSeek-R1-Distill-Llama-8B

深度求索

0.42

49.90

10

Llama-3.1-8B-Instruct

Meta

0.42

49.60

11

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.35

48.80

12

Yi-1.5-9B-Chat

零一万物

0.42

45.30

13

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.36

43.20

14

Mistral-Nemo-Instruct-2407

Mistral

0.58

42.40

15

Mistral-7B-Instruct-v0.3

Mistral

0.40

40.90

推理与数学计算领域排行榜:

推理与数学计算领域目前囊括6个维度:演绎推理,常识推理,符号推理BBH,算术能力,七八九年级数学,表格问答。

排名

大模型

机构

输出价格

推理与数学计算

1

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.70

89.80

2

phi-4

微软

1.00

89.80

3

qwen2.5-14b-instruct

阿里巴巴

6.00

82.60

4

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.35

81.30

5

qwen2.5-7b-instruct

阿里巴巴

2.00

80.20

6

DeepSeek-R1-Distill-Llama-8B

深度求索

0.42

79.20

7

internlm2_5-20b-chat

上海人工智能实验室

1.00

77.10

8

Mistral-Nemo-Instruct-2407

Mistral

0.58

75.60

9

internlm2_5-7b-chat

上海人工智能实验室

0.35

74.40

10

glm-4-9b-chat

智谱AI

0.60

74.00

11

Llama-3.1-8B-Instruct

Meta

0.42

73.50

12

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.36

72.70

13

gemma-2-9b-it

Google

0.60

70.60

14

Yi-1.5-9B-Chat

零一万物

0.42

60.90

15

Mistral-7B-Instruct-v0.3

Mistral

0.40

48.60

语言与指令遵从领域排行榜:

语言与指令遵从领域目前囊括10个维度:成语理解,情感分析,分类能力,信息抽取,阅读理解,C3中文阅读理解,代词理解CLUEWSC,诗词匹配CCPM,中文指令遵从。

排名

大模型

机构

输出价格

语言与指令遵从

1

qwen2.5-14b-instruct

阿里巴巴

6.00

86.90

2

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.70

85.60

3

internlm2_5-20b-chat

上海人工智能实验室

1.00

84.40

4

internlm2_5-7b-chat

上海人工智能实验室

0.35

83.70

5

phi-4

微软

1.00

83.50

6

qwen2.5-7b-instruct

阿里巴巴

2.00

83.40

7

glm-4-9b-chat

智谱AI

0.60

83.00

8

gemma-2-9b-it

Google

0.60

81.30

9

Yi-1.5-9B-Chat

零一万物

0.42

79.70

10

Mistral-Nemo-Instruct-2407

Mistral

0.58

77.80

11

DeepSeek-R1-Distill-Llama-8B

深度求索

0.42

74.00

12

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.36

73.70

13

Llama-3.1-8B-Instruct

Meta

0.42

72.60

14

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.35

71.00

15

Mistral-7B-Instruct-v0.3

Mistral

0.40

69.70

完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

往期文章


关于大模型评测EasyLLM  

  1. 首创——行业首创百万级AI大模型错题本

  2. 最全——全球最全大模型产品评测平台,已囊括203个大模型

  3. 最新——月更各个大模型各项能力指标评测,输出排行榜

  4. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  5. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!

大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果,以及各个大模型不同维度、不同细分领域的评测错题本!

完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值