前言
数据来源
Chatbot Arena大模型竞技场,开放且免费的AI测评网lmarena.ai
排序方式
- 每次提问时,向随机两个匿名人工智能机器人(如ChatGPT,Gemini,Claude,Liama等)
- 通过投票选出最佳答案,或者暂时不投票,继续聊天,直到找到获胜者。
- 公平游戏:如果你是AI,则你的投票不会被计数
截止5月5日目前收录
截止3月19日目前收录
- 216个模型
- 270w+投票
排名(5月13日)
排名(不进行提示) | 排名(进行提示) | 模型名称 | 竞技场得分 | 95%置信区间 | 投票数 | 来源组织 | 许可证 |
1 | 1 | 1448 | +7/-12 | 3545 | | Proprietary | |
2 | 1 | 1411 | +11/-7 | 5844 | OpenAI | Proprietary | |
2 | 2 | 1408 | +6/-5 | 10286 | OpenAI | Proprietary | |
2 | 5 | 1402 | +5/-4 | 14843 | xAI | Proprietary | |
4 | 3 | 1398 | +4/-5 | 15281 | OpenAI | Proprietary | |
4 | 5 | 1394 | +9/-8 | 5393 | | Proprietary | |
7 | 6 | 1372 | +6/-6 | 8213 | DeepSeek | MIT | |
7 | 5 | 1367 | +6/-8 | 4523 | OpenAI | Proprietary | |
8 | 7 | 1359 | +4/-3 | 18034 | DeepSeek | MIT | |
8 | 5 | 1351 | +9/-8 | 4526 | OpenAI | Proprietary |
排名(4月17日)
排名(不进行提示) | 排名(进行提示) | 模型名称 | 竞技场得分 | 95%置信区间 | 投票数 | 来源组织 | 许可证 |
1 | 1 | 1437 | +8/-6 | 7431 | | 专有 | |
2 | 2 | 1406 | +7/-8 | 6612 | OpenAI | 专有 | |
2 | 4 | 1402 | +5/-5 | 13919 | xAI | 专有 | |
2 | 2 | 1397 | +5/-6 | 13443 | OpenAI | 专有 | |
5 | 8 | 1380 | +5/-4 | 25266 | | 专有 | |
5 | 4 | 1380 | +4/-5 | 20136 | | 专有 | |
5 | 4 | 1370 | +7/-7 | 4721 | DeepSeek | 开源 | |
7 | 5 | 1359 | +5/-5 | 15098 | DeepSeek | 开源 | |
8 | 13 | 1354 | +4/-4 | 21065 | | 专有 | |
8 | 4 | 1350 | +4/-5 | 27831 | OpenAI | 专有 |
排名(3月31日)
排名(不进行提示) | 排名(进行提示) | 模型名称 | 竞技场得分 | 95%置信区间 | 投票数 | 来源组织 | 许可证 |
1 | 1 | 1443 | +11/-8 | 3474 | | 专有 | |
2 | 2 | 1408 | +11/-12 | 2676 | OpenAI | 专有 | |
2 | 4 | 1404 | +6/-6 | 10397 | xAI | 专有 | |
2 | 2 | 1398 | +6/-7 | 10907 | OpenAI | 专有 | |
5 | 7 | 1381 | +4/-5 | 22987 | | 专有 | |
5 | 4 | 1380 | +5/-4 | 20289 | | 专有 | |
7 | 5 | 1360 | +5/-4 | 13074 | DeepSeek | 开源 | |
7 | 12 | 1355 | +6/-4 | 18650 | | 专有 | |
7 | 4 | 1351 | +5/-4 | 25363 | OpenAI | 专有 | |
10 | 12 | 1340 | +5/-5 | 17452 | Alibaba | 专有 | |
10 | 12 | 1339 | +7/-5 | 7238 | | Gemma | |
10 | 9 | 1335 | +4/-3 | 33188 | OpenAI | 专有 |
排名(3月19日)
排名(不进行提示) | 排名(进行提示) | 模型名称 | 竞技场得分 | 95%置信区间 | 投票数 | 来源组织 | 许可证 |
1 | 2 | 1406 | +8/-6 | 9109 | xAI | 专有 | |
1 | 1 | 1400 | +5/-6 | 8596 | OpenAI | 专有 | |
3 | 6 | 1383 | +6/-4 | 21124 | | 专有 | |
3 | 3 | 1380 | +4/-4 | 19038 | | 专有 | |
3 | 2 | 1375 | +6/-4 | 20936 | OpenAI | 专有 | |
6 | 4 | 1360 | +7/-5 | 11507 | DeepSeek | 开源 | |
6 | 10 | 1355 | +4/-5 | 16845 | | 专有 | |
6 | 3 | 1352 | +4/-6 | 23441 | OpenAI | 专有 | |
9 | 10 | 1340 | +8/-8 | 5028 | | Google 自己的许可协议 | |
9 | 10 | 1339 | +4/-5 | 15607 | Alibaba | 专有 |
此处仅摘录前十名,具体请参考官方网站
名词解释:
- 排名(不进行提示)即Rank(UB):这是模型在不考虑特定风格控制(style control)的情况下,基于其在各种任务中的表现所确定的排名。它反映了模型在不同任务上的综合表现,不涉及对风格的调整。
- 排名(进行提示)即Rank(stylectrl):这是模型在考虑“风格控制”时的排名。风格控制指的是模型根据提示调整其回复的能力,例如语调、正式程度等。它衡量的是模型在特定风格要求下的表现。
- 95%置信区间 即 95%CI:统计学中常用的一个概念,用于估计总体参数(如均值、比例等)的范围。具体来说,95% 置信区间意味着如果我们多次重复相同的抽样和统计过程,那么在这些构造的区间中,大约有 95% 的区间会包含真实的总体参数值。95% CI 的形式是“+7/-7”、“+7/-9”等,这表示置信区间的上下限相对于某个中心值的变化范围。例如:
- “+7/-7” 表示置信区间的范围是从中心值减去 7 到中心值加上 7。
- “+7/-9” 表示置信区间的范围是从中心值减去 9 到中心值加上 7。
这些区间反映了估计值的不确定性。区间越宽,说明估计的不确定性越大;区间越窄,说明估计越精确。