本期安排上了应用于医疗行业的大模型能力评测,涉及12大分类、18个科目。同时,医疗领域不同类型、不同级别、不同科目的评测,都在爆肝输出中,敬请期待。
一、评测结论:
百度系最新大模型得分第一!,腾讯系混元大模型排名第二,DeepSeek排名第七,和腾讯系模型是排名前10中唯二的开源模型。
二、评测维度:
针对医疗行业的各类考试的选择题进行评测,囊括12大分类,18个科目:外科、皮肤科、妇产科、耳鼻咽喉科、神经内科、儿科、麻醉科、小儿外科、眼科、临床病理科、超声科、康复医学科、骨科、内科、口腔科、医学影像科、全科医学科、精神科。
各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
三、评测方法:
结合以上医疗类目考试的选择题,分别让各个大模型进行回答,根据结果进行打分,并统计每个模型的答题准确率。
*评测综合得分排名(图)|绿色(闭源),蓝色(开源)
完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
类别 | 大模型 | 医疗 | 排名 |
商用 | ERNIE-4.5-8K-Preview(new) | 91.70 | 1 |
商用 | hunyuan-turbos-20250226(new) | 88.20 | 2 |
商用 | hunyuan-turbo | 86.60 | 3 |
商用 | Doubao-1.5-pro-32k-250115 | 86.10 | 4 |
开源 | hunyuan-large | 86.00 | 5 |
商用 | hunyuan-turbos-20250313(new) | 84.40 | 6 |
开源 | DeepSeek-R1 | 82.60 | 7 |
商用 | Doubao-1.5-lite-32k-250115 | 81.50 | 8 |
商用 | qwen2.5-max | 78.00 | 9 |
商用 | xunfei-spark-max | 77.50 | 10 |
商用 | xunfei-4.0Ultra | 76.90 | 11 |
开源 | qwq-32b(new) | 76.80 | 12 |
商用 | qwq-plus-2025-03-05(new) | 76.70 | 13 |
商用 | hunyuan-standard | 76.50 | 14 |
商用 | 360gpt-pro | 75.60 | 15 |
商用 | 360gpt2-pro | 75.60 | 16 |
商用 | kimi-latest-8k | 75.50 | 17 |
商用 | qwen-plus | 75.50 | 18 |
商用 | xunfei-spark-pro | 75.50 | 19 |
商用 | qwen-long | 75.40 | 20 |
商用 | GLM-4-Plus | 75.40 | 21 |
开源 | qwq-32b-preview | 74.40 | 22 |
开源 | qwen2.5-72b-instruct | 74.00 | 23 |
商用 | gemini-2.0-pro-exp-02-05 | 73.10 | 24 |
商用 | abab7-chat-preview | 72.90 | 25 |
商用 | qwen-turbo | 72.70 | 26 |
开源 | deepseek-chat-v3 | 72.40 | 27 |
商用 | Baichuan4-Turbo | 72.00 | 28 |
开源 | Meta-Llama-3.1-405B-Instruct | 71.50 | 29 |
商用 | yi-lightning | 71.40 | 30 |
开源 | qwen2.5-32b-instruct | 71.30 | 31 |
开源 | MiniMax-Text-01 | 71.30 | 32 |
商用 | SenseChat-5-beta | 71.00 | 33 |
开源 | DeepSeek-R1-Distill-Qwen-32B | 69.70 | 34 |
商用 | GLM-4-Air | 68.60 | 35 |
商用 | GLM-4-AirX | 68.30 | 36 |
商用 | SenseChat-5-1202 | 68.20 | 37 |
开源 | qwen2.5-14b-instruct | 68.20 | 38 |
商用 | 360zhinao2-o1 | 68.00 | 39 |
商用 | gemini-2.0-flash-thinking-exp-01-21 | 67.60 | 40 |
商用 | 360gpt2-o1 | 67.60 | 41 |
商用 | 360gpt-turbo | 67.50 | 42 |
商用 | ERNIE-4.0 | 67.10 | 43 |
商用 | gemini-2.0-flash-001 | 66.80 | 44 |
商用 | gemini-2.0-flash-exp | 66.70 | 45 |
商用 | GLM-4-Long | 66.60 | 46 |
商用 | GLM-4-Flash | 66.30 | 47 |
开源 | internlm2_5-20b-chat | 66.00 | 48 |
商用 | ERNIE-3.5-8K | 65.50 | 49 |
商用 | GLM-Zero-Preview | 65.40 | 50 |
开源 | internlm2_5-7b-chat | 65.00 | 51 |
开源 | qwen2.5-7b-instruct | 64.80 | 52 |
商用 | chatgpt-4o-latest | 64.30 | 53 |
商用 | ERNIE-4.0-Turbo-8K | 64.20 | 54 |
开源 | Llama-3.1-Nemotron-70B-Instruct-fp8 | 64.00 | 55 |
开源 | DeepSeek-R1-Distill-Qwen-14B | 63.70 | 56 |
开源 | Llama-3.3-70B-Instruct | 63.10 | 57 |
开源 | Llama-3.3-70B-Instruct-fp8 | 63.10 | 58 |
商用 | gemini-1.5-pro | 61.80 | 59 |
商用 | SenseChat-Turbo-1202 | 61.80 | 60 |
商用 | step-2-mini(new) | 60.90 | 61 |
商用 | Claude-3.5-Sonnet | 60.80 | 62 |
商用 | ERNIE-Speed-8K | 59.30 | 63 |
商用 | step-1-8k | 59.00 | 64 |
开源 | DeepSeek-R1-Distill-Llama-70B | 58.80 | 65 |
商用 | moonshot-v1-8k | 58.70 | 66 |
商用 | GLM-4-FlashX | 57.70 | 67 |
商用 | Baichuan4-Air | 57.60 | 68 |
开源 | glm-4-9b-chat | 57.30 | 69 |
开源 | Hermes-3-Llama-3.1-405B | 56.90 | 70 |
商用 | Baichuan4 | 54.80 | 71 |
商用 | abab6.5s-chat | 54.70 | 72 |
商用 | o1-mini | 54.60 | 73 |
商用 | o3-mini | 54.40 | 74 |
商用 | mistral-large | 54.30 | 75 |
商用 | gemini-1.5-flash | 53.40 | 76 |
商用 | ERNIE-Speed-Pro-128K | 52.90 | 77 |
商用 | gpt-4o-mini-2024-07-18 | 52.80 | 78 |
商用 | ERNIE-Lite-Pro-128K | 51.90 | 79 |
商用 | step-1-flash | 51.40 | 80 |
开源 | qwen2.5-3b-instruct | 50.50 | 81 |
开源 | gemma-3-27b-it(new) | 50.10 | 82 |
商用 | ERNIE-Lite-8K | 49.80 | 83 |
商用 | mistral-small | 48.50 | 84 |
开源 | Mistral-Small-24B-Instruct-2501(new) | 47.10 | 85 |
开源 | phi-4 | 45.50 | 86 |
开源 | gemma-3-12b-it(new) | 45.10 | 87 |
开源 | gemma-2-27b-it | 44.90 | 88 |
开源 | qwen2.5-1.5b-instruct | 44.50 | 89 |
开源 | Llama-3.1-8B-Instruct | 43.40 | 90 |
开源 | gemma-2-9b-it | 42.30 | 91 |
商用 | xunfei-spark-lite(new) | 42.00 | 92 |
商用 | gemini-1.5-flash-8b | 42.00 | 93 |
开源 | Meta-Llama-3.1-8B-Instruct-fp8 | 41.80 | 94 |
开源 | Llama-3.2-3B-Instruct | 38.20 | 95 |
开源 | Mistral-Nemo-Instruct-2407 | 36.60 | 96 |
商用 | ministral-8b | 33.70 | 97 |
开源 | gemma-3-4b-it(new) | 33.20 | 98 |
开源 | DeepSeek-R1-Distill-Llama-8B | 31.90 | 99 |
开源 | qwen2.5-0.5b-instruct | 30.50 | 100 |
开源 | DeepSeek-R1-Distill-Qwen-7B | 30.50 | 101 |
商用 | ministral-3b | 29.10 | 102 |
开源 | Mistral-7B-Instruct-v0.3 | 28.70 | 103 |
开源 | Llama-3.2-1B-Instruct | 26.60 | 104 |
商用 | ERNIE-Tiny-8K | 26.40 | 105 |
开源 | DeepSeek-R1-Distill-Qwen-1.5B | 25.10 | 106 |
开源 | gemma-3-1b-it(new) | 24.40 | 107 |
开源 | qwen2.5-math-72b-instruct | / | 108 |
开源 | Yi-1.5-34B-Chat | / | 109 |
开源 | Yi-1.5-9B-Chat | / | 110 |
完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
大模型评测EasyLLM,目前已就DeepSeek和各个大模型的不同能力维度进行了综合评测(详情可回顾以下链接👇),接下来还会针对大模型当律师、医生、老师等各个岗位角色进行测评,看看谁是各个垂直领域的最强打工人!宝子们看好哪个大模型可以在哪些岗位胜任最强牛马?或者想评测大模型的哪方面能力?评论区留言,有求必测,一一公布结果!有评测样本、有图有真相!
往期文章
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04
那些免费的大模型API效果到底好不好?——CLiB大模型排行榜
关于大模型评测EasyLLM
-
最全——全球最全大模型产品评测平台,已囊括203个大模型
-
最新——月更各个大模型各项能力指标评测,输出排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!
大模型评测EasyLLM目前已囊括187个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark