司南 OpenCompass 5 月榜单揭晓，全新大模型对战榜单首次登场

最新推荐文章于 2025-08-21 16:52:17 发布

原创

最新推荐文章于 2025-08-21 16:52:17 发布 · 2.1k 阅读

·

32

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #github #语言模型 #开源 #论文阅读 #AIGC

司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测，现已公布 2024 年 5 月大语言模型最新评测榜单！与此同时，CompassArena 大模型对战榜单 也于今日首次重磅上线！

5 月大语言模型榜单

本次榜单囊括了国内外共 40 个大语言模型，包含：GPT-4o、Claude3、Qwen-Max、文心一言、Yi-Large、Moonshot-v1、阶跃星辰、豆包等。

本次榜单相较于 4 月榜单的主要更新包括：

新增了 GPT-4o、豆包、Qwen-Max-0428、Yi-Large 等闭源模型，Yi-1.5 系列、Nanbeige2 等开源模型；去除了若干无法公开访问的模型，或同系列存在更新版本的模型

更换了原综合性客观评测基准中数学能力下的测试数据，新增了代码能力下的“算法面试”、“算法竞赛”两个细分任务

原中文主观评测数据更新为中英文双语主观评测数据，新增代码、对话两个能力，使用 GPT-4o 作为评价模型

评测数据集采用中英文闭源数据集，包括中英文双语客观评测和中英文双语主观评测。其中，客观评测涵盖语言、知识、推理、数学、代码与智能体六个维度；主观评测涵盖语言、知识、推理、代码、创作、对话六个维度。

综合来看，5 月的客观评测和主观评测榜单大图如下：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。