评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。
以下为排行榜:
输出价格单位:(元/M tok)
排名 | 大模型 | 机构 | 输出价格 | 总分 |
1 | DeepSeek-R1 | 深度求索 | 16.00 | 86.90 |
2 | qwq-32b(new) | 阿里巴巴 | 6.00 | 83.70 |
3 | qwq-32b-preview | 阿里巴巴 | 7.00 | 77.00 |
4 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 1.26 | 77.00 |
5 | qwen2.5-72b-instruct | 阿里巴巴 | 12.00 | 76.40 |
6 | qwen2.5-32b-instruct | 阿里巴巴 | 7.00 | 75.30 |
7 | deepseek-chat-v3 | 深度求索 | 8.00 | 74.20 |
8 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 4.13 | 70.80 |
9 | Meta-Llama-3.1-405B-Instruct | Meta | 21.00 | 68.40 |
10 | Llama-3.3-70B-Instruct | meta | 4.13 | 66.80 |
11 | qwen2.5-math-72b-instruct | 阿里巴巴 | 12.00 | 66.50 |
12 | Yi-1.5-34B-Chat | 零一万物 | 1.26 | 66.10 |
13 | Llama-3.3-70B-Instruct-fp8 | meta | 2.20 | 65.90 |
14 | Llama-3.1-Nemotron-70B-Instruct-fp8 | nvidia | 2.20 | 65.60 |
15 | Hermes-3-Llama-3.1-405B | NousResearch | 5.80 | 65.20 |
16 | gemma-2-27b-it | | 1.26 | 57.30 |
医疗领域排行榜:
医疗领域目前囊括8个维度: 医师考试-规培结业,医师考试-执业助理医师,医师考试-执业医师 ,医师考试-中级职称,医师考试-高级职称,护理考试-护士执业资格,护理考试-主管护师,护理考试-高级护师。其中规培结业含外科、皮肤科等18个方向,执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向,执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。
排名 | 大模型 | 机构 | 输出价格 | 医疗 |
1 | DeepSeek-R1 | 深度求索 | 16.00 | 82.70 |
2 | qwq-32b(new) | 阿里巴巴 | 6.00 | 76.20 |
3 | qwen2.5-72b-instruct | 阿里巴巴 | 12.00 | 74.50 |
4 | qwq-32b-preview | 阿里巴巴 | 7.00 | 73.80 |
5 | qwen2.5-32b-instruct | 阿里巴巴 | 7.00 | 71.50 |
6 | deepseek-chat-v3 | 深度求索 | 8.00 | 71.30 |
7 | Meta-Llama-3.1-405B-Instruct | Meta | 21.00 | 70.70 |
8 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 1.26 | 70.00 |
9 | Llama-3.1-Nemotron-70B-Instruct-fp8 | nvidia | 2.20 | 63.10 |
10 | Llama-3.3-70B-Instruct-fp8 | meta | 2.20 | 62.40 |
11 | Llama-3.3-70B-Instruct | meta | 4.13 | 62.00 |
12 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 4.13 | 58.90 |
13 | Hermes-3-Llama-3.1-405B | NousResearch | 5.80 | 55.90 |
14 | gemma-2-27b-it | | 1.26 | 42.80 |
15 | qwen2.5-math-72b-instruct | 阿里巴巴 | 12.00 | / |
16 | Yi-1.5-34B-Chat | 零一万物 | 1.26 | / |
教育领域排行榜:
教育领域目前囊括4个维度:高考,高中各学科,初中各学科,小学各学科。
排名 | 大模型 | 机构 | 输出价格 | 教育 |
1 | DeepSeek-R1 | 深度求索 | 16.00 | 94.30 |
2 | qwq-32b(new) | 阿里巴巴 | 6.00 | 91.60 |
3 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 1.26 | 88.80 |
4 | qwq-32b-preview | 阿里巴巴 | 7.00 | 87.40 |
5 | qwen2.5-32b-instruct | 阿里巴巴 | 7.00 | 86.80 |
6 | qwen2.5-72b-instruct | 阿里巴巴 | 12.00 | 85.50 |
7 | deepseek-chat-v3 | 深度求索 | 8.00 | 82.90 |
8 | Yi-1.5-34B-Chat | 零一万物 | 1.26 | 79.50 |
9 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 4.13 | 79.40 |
10 | qwen2.5-math-72b-instruct | 阿里巴巴 | 12.00 | 71.70 |
11 | Llama-3.3-70B-Instruct | meta | 4.13 | 70.20 |
12 | Hermes-3-Llama-3.1-405B | NousResearch | 5.80 | 70.10 |
13 | Meta-Llama-3.1-405B-Instruct | Meta | 21.00 | 69.10 |
14 | Llama-3.3-70B-Instruct-fp8 | meta | 2.20 | 68.30 |
15 | Llama-3.1-Nemotron-70B-Instruct-fp8 | nvidia | 2.20 | 67.20 |
16 | gemma-2-27b-it | | 1.26 | 63.70 |
法律领域排行榜:
法律领域目前囊括1个维度:JEC-QA律师资格考试。
排名 | 大模型 | 机构 | 输出价格 | 法律 |
1 | DeepSeek-R1 | 深度求索 | 16.00 | 71.70 |
2 | qwq-32b(new) | 阿里巴巴 | 6.00 | 62.80 |
3 | qwen2.5-32b-instruct | 阿里巴巴 | 7.00 | 51.90 |
4 | qwq-32b-preview | 阿里巴巴 | 7.00 | 50.80 |
5 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 1.26 | 49.20 |
6 | qwen2.5-72b-instruct | 阿里巴巴 | 12.00 | 49.10 |
7 | deepseek-chat-v3 | 深度求索 | 8.00 | 39.50 |
8 | Yi-1.5-34B-Chat | 零一万物 | 1.26 | 38.90 |
9 | Meta-Llama-3.1-405B-Instruct | Meta | 21.00 | 37.40 |
10 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 4.13 | 35.20 |
11 | Llama-3.1-Nemotron-70B-Instruct-fp8 | nvidia | 2.20 | 33.10 |
12 | qwen2.5-math-72b-instruct | 阿里巴巴 | 12.00 | 31.00 |
13 | Llama-3.3-70B-Instruct | meta | 4.13 | 29.40 |
14 | Hermes-3-Llama-3.1-405B | NousResearch | 5.80 | 29.40 |
15 | Llama-3.3-70B-Instruct-fp8 | meta | 2.20 | 28.50 |
16 | gemma-2-27b-it | | 1.26 | 22.90 |
行政公务领域排行榜:
行政公务领域目前囊括1个维度:公务员考试。
排名 | 大模型 | 机构 | 输出价格 | 行政公务 |
1 | DeepSeek-R1 | 深度求索 | 16.00 | 88.60 |
2 | qwq-32b(new) | 阿里巴巴 | 6.00 | 86.50 |
3 | qwq-32b-preview | 阿里巴巴 | 7.00 | 78.00 |
4 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 4.13 | 77.50 |
5 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 1.26 | 76.20 |
6 | deepseek-chat-v3 | 深度求索 | 8.00 | 72.70 |
7 | qwen2.5-72b-instruct | 阿里巴巴 | 12.00 | 71.70 |
8 | qwen2.5-32b-instruct | 阿里巴巴 | 7.00 | 70.00 |
9 | qwen2.5-math-72b-instruct | 阿里巴巴 | 12.00 | 68.00 |
10 | Llama-3.3-70B-Instruct | meta | 4.13 | 66.40 |
11 | Llama-3.3-70B-Instruct-fp8 | meta | 2.20 | 64.80 |
12 | Hermes-3-Llama-3.1-405B | NousResearch | 5.80 | 64.70 |
13 | Meta-Llama-3.1-405B-Instruct | Meta | 21.00 | 64.20 |
14 | Llama-3.1-Nemotron-70B-Instruct-fp8 | nvidia | 2.20 | 63.70 |
15 | Yi-1.5-34B-Chat | 零一万物 | 1.26 | 59.00 |
16 | gemma-2-27b-it | | 1.26 | 57.10 |
推理与数学计算领域排行榜:
推理与数学计算领域目前囊括6个维度:演绎推理,常识推理,符号推理BBH,算术能力,七八九年级数学,表格问答。
排名 | 大模型 | 机构 | 输出价格 | 推理与数学计算 |
1 | qwq-32b(new) | 阿里巴巴 | 6.00 | 94.30 |
2 | DeepSeek-R1 | 深度求索 | 16.00 | 92.70 |
3 | deepseek-chat-v3 | 深度求索 | 8.00 | 92.50 |
4 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 1.26 | 90.10 |
5 | qwen2.5-72b-instruct | 阿里巴巴 | 12.00 | 89.30 |
6 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 4.13 | 88.80 |
7 | qwq-32b-preview | 阿里巴巴 | 7.00 | 87.40 |
8 | Llama-3.3-70B-Instruct | meta | 4.13 | 87.40 |
9 | qwen2.5-math-72b-instruct | 阿里巴巴 | 12.00 | 87.00 |
10 | Llama-3.3-70B-Instruct-fp8 | meta | 2.20 | 86.60 |
11 | Hermes-3-Llama-3.1-405B | NousResearch | 5.80 | 85.60 |
12 | Meta-Llama-3.1-405B-Instruct | Meta | 21.00 | 85.00 |
13 | qwen2.5-32b-instruct | 阿里巴巴 | 7.00 | 84.20 |
14 | Llama-3.1-Nemotron-70B-Instruct-fp8 | nvidia | 2.20 | 81.30 |
15 | Yi-1.5-34B-Chat | 零一万物 | 1.26 | 75.30 |
16 | gemma-2-27b-it | | 1.26 | 73.40 |
语言与指令遵从领域排行榜:
语言与指令遵从领域目前囊括10个维度:成语理解,情感分析,分类能力,信息抽取,阅读理解,C3中文阅读理解,代词理解CLUEWSC,诗词匹配CCPM,中文指令遵从。
排名 | 大模型 | 机构 | 输出价格 | 语言与指令遵从 |
1 | DeepSeek-R1 | 深度求索 | 16.00 | 91.20 |
2 | qwq-32b(new) | 阿里巴巴 | 6.00 | 90.90 |
3 | qwen2.5-72b-instruct | 阿里巴巴 | 12.00 | 88.00 |
4 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 1.26 | 87.70 |
5 | qwen2.5-32b-instruct | 阿里巴巴 | 7.00 | 87.60 |
6 | deepseek-chat-v3 | 深度求索 | 8.00 | 86.60 |
7 | Llama-3.1-Nemotron-70B-Instruct-fp8 | nvidia | 2.20 | 85.50 |
8 | Llama-3.3-70B-Instruct | meta | 4.13 | 85.40 |
9 | Hermes-3-Llama-3.1-405B | NousResearch | 5.80 | 85.40 |
10 | Llama-3.3-70B-Instruct-fp8 | meta | 2.20 | 85.10 |
11 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 4.13 | 85.00 |
12 | qwq-32b-preview | 阿里巴巴 | 7.00 | 84.80 |
13 | Meta-Llama-3.1-405B-Instruct | Meta | 21.00 | 84.20 |
14 | gemma-2-27b-it | | 1.26 | 83.80 |
15 | Yi-1.5-34B-Chat | 零一万物 | 1.26 | 83.10 |
16 | qwen2.5-math-72b-instruct | 阿里巴巴 | 12.00 | 80.30 |
完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
往期文章
关于大模型评测EasyLLM
-
首创——行业首创百万级AI大模型错题本
-
最全——全球最全大模型产品评测平台,已囊括203个大模型
-
最新——月更各个大模型各项能力指标评测,输出排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果,以及各个大模型不同维度、不同细分领域的评测错题本!
完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark