CompassArena 自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!
目前 CompassArena 大模型竞技场已支持 30 余个主流大语言模型,包括 InternLM系列、GLM-4-0520、Qwen2系列、文心一言4.0、DeepSeek-V2、星火3.5、豆包pro/240615、零一万物等。

截至8月1日,CompassArena 已收集到超过 11000 条有效的大模型匿名对战数据,并更新了大语言模型的 Elo 等级分数排名。其中:
-
排名(UB):定义模型的排名为比目标模型(在统计意义上)更优的模型数量加一。若模型A的95%置信区间的下限大于模型B的95%置信区间的上限,则模型A被认为统计显著优于模型B。
-
排名(Elo):基于模型竞技场Elo分数进行降序排列得出的排名。此排名受Elo估计的不确定性影响,因此应该结合95%置信区间合理评估模型的真实水平。
以下为最新(2024年8月1日)的匿名对战 Elo 分数和排名:

基于匿名对战结果,我们发现:

最低0.47元/天 解锁文章
5232

被折叠的 条评论
为什么被折叠?



