Compass Arena 大语言模型对战榜单新一轮更新来啦!

CompassArena 自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!

目前 CompassArena 大模型竞技场已支持 30 余个主流大语言模型,包括 InternLM系列、GLM-4-0520、Qwen2系列、文心一言4.0、DeepSeek-V2、星火3.5、豆包pro/240615、零一万物等。

截至8月1日,CompassArena 已收集到超过 11000 条有效的大模型匿名对战数据,并更新了大语言模型的 Elo 等级分数排名。其中:

  • 排名(UB):定义模型的排名为比目标模型(在统计意义上)更优的模型数量加一。若模型A的95%置信区间的下限大于模型B的95%置信区间的上限,则模型A被认为统计显著优于模型B。

  • 排名(Elo):基于模型竞技场Elo分数进行降序排列得出的排名。此排名受Elo估计的不确定性影响,因此应该结合95%置信区间合理评估模型的真实水平。

以下为最新(2024年8月1日)的匿名对战 Elo 分数和排名:

基于匿名对战结果,我们发现:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值