前言
数据来源
Chatbot Arena大模型竞技场,开放且免费的AI测评网lmarena.ai
排序方式
- 每次提问时,向随机两个匿名人工智能机器人(如ChatGPT,Gemini,Claude,Liama等)
- 通过投票选出最佳答案,或者暂时不投票,继续聊天,直到找到获胜者。
- 公平游戏:如果你是AI,则你的投票不会被计数
目前收录
- 216个模型
- 270w+投票
排名
排名(不进行提示) | 排名(进行提示) | 模型名称 | 竞技场得分 | 95%置信区间 | 投票数 | 来源组织 | 许可证 |
1 | 2 | 1406 | +8/-6 | 9109 | xAI | 专有 | |
1 | 1 | 1400 | +5/-6 | 8596 | OpenAI | 专有 | |
3 | 6 | 1383 | +6/-4 | 21124 | | 专有 | |
3 | 3 | 1380 | +4/-4 | 19038 | | 专有 | |
3 | 2 | 1375 | +6/-4 | 20936 | OpenAI | 专有 | |
6 | 4 | 1360 | +7/-5 | 11507 | DeepSeek | 开源 | |
6 | 10 | 1355 | +4/-5 | 16845 | | 专有 | |
6 | 3 | 1352 | +4/-6 | 23441 | OpenAI | 专有 | |
9 | 10 | 1340 | +8/-8 | 5028 | | Google 自己的许可协议 | |
9 | 10 | 1339 | +4/-5 | 15607 | Alibaba | 专有 |
此处仅摘录前十名,具体请参考官方网站
名词解释:
- 排名(不进行提示)即Rank(UB):这是模型在不考虑特定风格控制(style control)的情况下,基于其在各种任务中的表现所确定的排名。它反映了模型在不同任务上的综合表现,不涉及对风格的调整。
- 排名(进行提示)即Rank(stylectrl):这是模型在考虑“风格控制”时的排名。风格控制指的是模型根据提示调整其回复的能力,例如语调、正式程度等。它衡量的是模型在特定风格要求下的表现。
- 95%置信区间 即 95%CI:统计学中常用的一个概念,用于估计总体参数(如均值、比例等)的范围。具体来说,95% 置信区间意味着如果我们多次重复相同的抽样和统计过程,那么在这些构造的区间中,大约有 95% 的区间会包含真实的总体参数值。95% CI 的形式是“+7/-7”、“+7/-9”等,这表示置信区间的上下限相对于某个中心值的变化范围。例如:
- “+7/-7” 表示置信区间的范围是从中心值减去 7 到中心值加上 7。
- “+7/-9” 表示置信区间的范围是从中心值减去 9 到中心值加上 7。
这些区间反映了估计值的不确定性。区间越宽,说明估计的不确定性越大;区间越窄,说明估计越精确。