登顶！目前大模型竞技排行榜！（5月13日更新）

° 安如少年初如梦662

已于 2025-05-13 17:10:36 修改

阅读量1.3k

点赞数 6

分类专栏：大模型文章标签：人工智能 llama 语言模型 LLM

于 2025-03-19 14:52:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_59670390/article/details/146370603

版权

大模型专栏收录该内容

1 篇文章

订阅专栏

前言

数据来源

Chatbot Arena大模型竞技场，开放且免费的AI测评网lmarena.ai

排序方式

每次提问时，向随机两个匿名人工智能机器人（如ChatGPT，Gemini，Claude，Liama等）
通过投票选出最佳答案，或者暂时不投票，继续聊天，直到找到获胜者。
公平游戏：如果你是AI，则你的投票不会被计数

截止5月5日目前收录

截止3月19日目前收录

216个模型
270w+投票

排名(5月13日)

排名（不进行提示）	排名（进行提示）	模型名称	竞技场得分	95%置信区间	投票数	来源组织	许可证
1	1	Gemini-2.5-Pro-Preview-05-06	1448	+7/-12	3545	Google	Proprietary
2	1	o3-2025-04-16	1411	+11/-7	5844	OpenAI	Proprietary
2	2	ChatGPT-4o-latest (2025-03-26)	1408	+6/-5	10286	OpenAI	Proprietary
2	5	Grok-3-Preview-02-24	1402	+5/-4	14843	xAI	Proprietary
4	3	GPT-4.5-Preview	1398	+4/-5	15281	OpenAI	Proprietary
4	5	Gemini-2.5-Flash-Preview-04-17	1394	+9/-8	5393	Google	Proprietary
7	6	DeepSeek-V3-0324	1372	+6/-6	8213	DeepSeek	MIT
7	5	GPT-4.1-2025-04-14	1367	+6/-8	4523	OpenAI	Proprietary
8	7	DeepSeek-R1	1359	+4/-3	18034	DeepSeek	MIT
8	5	o4-mini-2025-04-16	1351	+9/-8	4526	OpenAI	Proprietary

排名(4月17日)

排名（不进行提示）	排名（进行提示）	模型名称	竞技场得分	95%置信区间	投票数	来源组织	许可证
1	1	Gemini-2.5-Pro-Exp-03-25	1437	+8/-6	7431	Google	专有
2	2	ChatGPT-4o-latest (2025-03-26)	1406	+7/-8	6612	OpenAI	专有
2	4	Grok-3-Preview-02-24	1402	+5/-5	13919	xAI	专有
2	2	GPT-4.5-Preview	1397	+5/-6	13443	OpenAI	专有
5	8	Gemini-2.0-Flash-Thinking-Exp-01-21	1380	+5/-4	25266	Google	专有
5	4	Gemini-2.0-Pro-Exp-02-05	1380	+4/-5	20136	Google	专有
5	4	DeepSeek-V3-0324	1370	+7/-7	4721	DeepSeek	开源
7	5	DeepSeek-R1	1359	+5/-5	15098	DeepSeek	开源
8	13	Gemini-2.0-Flash-001	1354	+4/-4	21065	Google	专有
8	4	o1-2024-12-17	1350	+4/-5	27831	OpenAI	专有

排名(3月31日)

排名（不进行提示）	排名（进行提示）	模型名称	竞技场得分	95%置信区间	投票数	来源组织	许可证
1	1	Gemini-2.5-Pro-Exp-03-25	1443	+11/-8	3474	Google	专有
2	2	ChatGPT-4o-latest (2025-03-26)	1408	+11/-12	2676	OpenAI	专有
2	4	Grok-3-Preview-02-24	1404	+6/-6	10397	xAI	专有
2	2	GPT-4.5-Preview	1398	+6/-7	10907	OpenAI	专有
5	7	Gemini-2.0-Flash-Thinking-Exp-01-21	1381	+4/-5	22987	Google	专有
5	4	Gemini-2.0-Pro-Exp-02-05	1380	+5/-4	20289	Google	专有
7	5	DeepSeek-R1	1360	+5/-4	13074	DeepSeek	开源
7	12	Gemini-2.0-Flash-001	1355	+6/-4	18650	Google	专有
7	4	o1-2024-12-17	1351	+5/-4	25363	OpenAI	专有
10	12	Qwen2.5-Max	1340	+5/-5	17452	Alibaba	专有
10	12	Gemma-3-27B-it	1339	+7/-5	7238	Google	Gemma
10	9	o1-preview	1335	+4/-3	33188	OpenAI	专有

排名（3月19日）

排名（不进行提示）	排名（进行提示）	模型名称	竞技场得分	95%置信区间	投票数	来源组织	许可证
1	2	Grok-3-Preview-02-24	1406	+8/-6	9109	xAI	专有
1	1	GPT-4.5-Preview	1400	+5/-6	8596	OpenAI	专有
3	6	Gemini-2.0-Flash-Thinking-Exp-01-21	1383	+6/-4	21124	Google	专有
3	3	Gemini-2.0-Pro-Exp-02-05	1380	+4/-4	19038	Google	专有
3	2	ChatGPT-4o-latest (2025-01-29)	1375	+6/-4	20936	OpenAI	专有
6	4	DeepSeek-R1	1360	+7/-5	11507	DeepSeek	开源
6	10	Gemini-2.0-Flash-001	1355	+4/-5	16845	Google	专有
6	3	o1-2024-12-17	1352	+4/-6	23441	OpenAI	专有
9	10	Gemma-3-27B-it	1340	+8/-8	5028	Google	Google 自己的许可协议
9	10	Qwen2.5-Max	1339	+4/-5	15607	Alibaba	专有

此处仅摘录前十名，具体请参考官方网站

名词解释：

排名（不进行提示）即Rank(UB)：这是模型在不考虑特定风格控制（style control）的情况下，基于其在各种任务中的表现所确定的排名。它反映了模型在不同任务上的综合表现，不涉及对风格的调整。
排名（进行提示）即Rank(stylectrl)：这是模型在考虑“风格控制”时的排名。风格控制指的是模型根据提示调整其回复的能力，例如语调、正式程度等。它衡量的是模型在特定风格要求下的表现。
95%置信区间即 95%CI：统计学中常用的一个概念，用于估计总体参数（如均值、比例等）的范围。具体来说，95% 置信区间意味着如果我们多次重复相同的抽样和统计过程，那么在这些构造的区间中，大约有 95% 的区间会包含真实的总体参数值。95% CI 的形式是“+7/-7”、“+7/-9”等，这表示置信区间的上下限相对于某个中心值的变化范围。例如：
- “+7/-7” 表示置信区间的范围是从中心值减去 7 到中心值加上 7。
- “+7/-9” 表示置信区间的范围是从中心值减去 9 到中心值加上 7。

这些区间反映了估计值的不确定性。区间越宽，说明估计的不确定性越大；区间越窄，说明估计越精确。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。