医疗行业|12个分类、18科目,110个大模型应用实测横评!

本期安排上了应用于医疗行业的大模型能力评测,涉及12大分类、18个科目。同时,医疗领域不同类型、不同级别、不同科目的评测,都在爆肝输出中,敬请期待。

一、评测结论:

百度系最新大模型得分第一!,腾讯系混元大模型排名第二,DeepSeek排名第七,和腾讯系模型是排名前10中唯二的开源模型。

二、评测维度:

针对医疗行业的各类考试的选择题进行评测,囊括12大分类,18个科目:外科、皮肤科、妇产科、耳鼻咽喉科、神经内科、儿科、麻醉科、小儿外科、眼科、临床病理科、超声科、康复医学科、骨科、内科、口腔科、医学影像科、全科医学科、精神科。

各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

三、评测方法:

结合以上医疗类目考试的选择题,分别让各个大模型进行回答,根据结果进行打分,并统计每个模型的答题准确率。

*评测综合得分排名(图)|绿色(闭源),蓝色(开源)

图片

完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

*评测模型概况及排名汇总(表)

类别

大模型

医疗

排名

商用

ERNIE-4.5-8K-Preview(new)

91.70 

1

商用

hunyuan-turbos-20250226(new)

88.20 

2

商用

hunyuan-turbo

86.60 

3

商用

Doubao-1.5-pro-32k-250115

86.10 

4

开源

hunyuan-large

86.00 

5

商用

hunyuan-turbos-20250313(new)

84.40 

6

开源

DeepSeek-R1

82.60 

7

商用

Doubao-1.5-lite-32k-250115

81.50 

8

商用

qwen2.5-max

78.00 

9

商用

xunfei-spark-max

77.50 

10

商用

xunfei-4.0Ultra

76.90 

11

开源

qwq-32b(new)

76.80 

12

商用

qwq-plus-2025-03-05(new)

76.70 

13

商用

hunyuan-standard

76.50 

14

商用

360gpt-pro

75.60 

15

商用

360gpt2-pro

75.60 

16

商用

kimi-latest-8k

75.50 

17

商用

qwen-plus

75.50 

18

商用

xunfei-spark-pro

75.50 

19

商用

qwen-long

75.40 

20

商用

GLM-4-Plus

75.40 

21

开源

qwq-32b-preview

74.40 

22

开源

qwen2.5-72b-instruct

74.00 

23

商用

gemini-2.0-pro-exp-02-05

73.10 

24

商用

abab7-chat-preview

72.90 

25

商用

qwen-turbo

72.70 

26

开源

deepseek-chat-v3

72.40 

27

商用

Baichuan4-Turbo

72.00 

28

开源

Meta-Llama-3.1-405B-Instruct

71.50 

29

商用

yi-lightning

71.40 

30

开源

qwen2.5-32b-instruct

71.30 

31

开源

MiniMax-Text-01

71.30 

32

商用

SenseChat-5-beta

71.00 

33

开源

DeepSeek-R1-Distill-Qwen-32B

69.70 

34

商用

GLM-4-Air

68.60 

35

商用

GLM-4-AirX

68.30 

36

商用

SenseChat-5-1202

68.20 

37

开源

qwen2.5-14b-instruct

68.20 

38

商用

360zhinao2-o1

68.00 

39

商用

gemini-2.0-flash-thinking-exp-01-21

67.60 

40

商用

360gpt2-o1

67.60 

41

商用

360gpt-turbo

67.50 

42

商用

ERNIE-4.0

67.10 

43

商用

gemini-2.0-flash-001

66.80 

44

商用

gemini-2.0-flash-exp

66.70 

45

商用

GLM-4-Long

66.60 

46

商用

GLM-4-Flash

66.30 

47

开源

internlm2_5-20b-chat

66.00 

48

商用

ERNIE-3.5-8K

65.50 

49

商用

GLM-Zero-Preview

65.40 

50

开源

internlm2_5-7b-chat

65.00 

51

开源

qwen2.5-7b-instruct

64.80 

52

商用

chatgpt-4o-latest

64.30 

53

商用

ERNIE-4.0-Turbo-8K

64.20 

54

开源

Llama-3.1-Nemotron-70B-Instruct-fp8

64.00 

55

开源

DeepSeek-R1-Distill-Qwen-14B

63.70 

56

开源

Llama-3.3-70B-Instruct

63.10 

57

开源

Llama-3.3-70B-Instruct-fp8

63.10 

58

商用

gemini-1.5-pro

61.80 

59

商用

SenseChat-Turbo-1202

61.80 

60

商用

step-2-mini(new)

60.90 

61

商用

Claude-3.5-Sonnet

60.80 

62

商用

ERNIE-Speed-8K

59.30 

63

商用

step-1-8k

59.00 

64

开源

DeepSeek-R1-Distill-Llama-70B

58.80 

65

商用

moonshot-v1-8k

58.70 

66

商用

GLM-4-FlashX

57.70 

67

商用

Baichuan4-Air

57.60 

68

开源

glm-4-9b-chat

57.30 

69

开源

Hermes-3-Llama-3.1-405B

56.90 

70

商用

Baichuan4

54.80 

71

商用

abab6.5s-chat

54.70 

72

商用

o1-mini

54.60 

73

商用

o3-mini

54.40 

74

商用

mistral-large

54.30 

75

商用

gemini-1.5-flash

53.40 

76

商用

ERNIE-Speed-Pro-128K

52.90 

77

商用

gpt-4o-mini-2024-07-18

52.80 

78

商用

ERNIE-Lite-Pro-128K

51.90 

79

商用

step-1-flash

51.40 

80

开源

qwen2.5-3b-instruct

50.50 

81

开源

gemma-3-27b-it(new)

50.10 

82

商用

ERNIE-Lite-8K

49.80 

83

商用

mistral-small

48.50 

84

开源

Mistral-Small-24B-Instruct-2501(new)

47.10 

85

开源

phi-4

45.50 

86

开源

gemma-3-12b-it(new)

45.10 

87

开源

gemma-2-27b-it

44.90 

88

开源

qwen2.5-1.5b-instruct

44.50 

89

开源

Llama-3.1-8B-Instruct

43.40 

90

开源

gemma-2-9b-it

42.30 

91

商用

xunfei-spark-lite(new)

42.00 

92

商用

gemini-1.5-flash-8b

42.00 

93

开源

Meta-Llama-3.1-8B-Instruct-fp8

41.80 

94

开源

Llama-3.2-3B-Instruct

38.20 

95

开源

Mistral-Nemo-Instruct-2407

36.60 

96

商用

ministral-8b

33.70 

97

开源

gemma-3-4b-it(new)

33.20 

98

开源

DeepSeek-R1-Distill-Llama-8B

31.90 

99

开源

qwen2.5-0.5b-instruct

30.50 

100

开源

DeepSeek-R1-Distill-Qwen-7B

30.50 

101

商用

ministral-3b

29.10 

102

开源

Mistral-7B-Instruct-v0.3

28.70 

103

开源

Llama-3.2-1B-Instruct

26.60 

104

商用

ERNIE-Tiny-8K

26.40 

105

开源

DeepSeek-R1-Distill-Qwen-1.5B

25.10 

106

开源

gemma-3-1b-it(new)

24.40 

107

开源

qwen2.5-math-72b-instruct

/

108

开源

Yi-1.5-34B-Chat

/

109

开源

Yi-1.5-9B-Chat

/

110

完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark


大模型评测EasyLLM,目前已就DeepSeek和各个大模型的不同能力维度进行了综合评测(详情可回顾以下链接👇),接下来还会针对大模型当律师、医生、老师等各个岗位角色进行测评,看看谁是各个垂直领域的最强打工人!宝子们看好哪个大模型可以在哪些岗位胜任最强牛马?或者想评测大模型的哪方面能力?评论区留言,有求必测,一一公布结果!有评测样本、有图有真相!

  往期文章  

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

那些免费的大模型API效果到底好不好?——CLiB大模型排行榜

参数量5B以下端侧大模型03.13——CLiB大模型排行榜

DeepSeek|到底强在哪?这个评测一目了然!


  关于大模型评测EasyLLM  

  1. 最全——全球最全大模型产品评测平台,已囊括203个大模型

  2. 最新——月更各个大模型各项能力指标评测,输出排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!

大模型评测EasyLLM目前已囊括187个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值