大模型对战
文章平均质量分 81
司南评测
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CompassArena新升级:Judge Copilot提升竞技体验,新一代Bradley-Terry模型还原模型真实能力
引入搜索功能的控制变量后,具备搜索功能的模型(标记为 w/search)的排名发生了显著变化。值得注意的是,Hunyuan-Pro w/search 和 Spark-v4.0-Ultra w/search 的排名在控制搜索功能后并未发生明显变化,这表明这些模型的能力估计较为准确,受搜索功能的影响较小。相比之下,其他排名靠前的大模型,如 GLM-4-Plus、Hunyuan-Pro 和 Qwen2-72B-Instruct,则在一定程度上受到对话风格和搜索功能的影响,导致其排名发生变化。原创 2024-12-25 10:57:13 · 1709 阅读 · 0 评论 -
Compass Arena 大语言模型对战榜单新一轮更新来啦!
CompassArena自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!原创 2024-08-02 10:52:56 · 1111 阅读 · 0 评论
分享