司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!
5 月大语言模型榜单
本次榜单囊括了国内外共 40 个大语言模型,包含:GPT-4o、Claude3、Qwen-Max、文心一言、Yi-Large、Moonshot-v1、阶跃星辰、豆包等。
本次榜单相较于 4 月榜单的主要更新包括:
新增了 GPT-4o、豆包、Qwen-Max-0428、Yi-Large 等闭源模型,Yi-1.5 系列、Nanbeige2 等开源模型;去除了若干无法公开访问的模型,或同系列存在更新版本的模型
更换了原综合性客观评测基准中数学能力下的测试数据,新增了代码能力下的“算法面试”、“算法竞赛”两个细分任务
原中文主观评测数据更新为中英文双语主观评测数据,新增代码、对话两个能力,使用 GPT-4o 作为评价模型
评测数据集采用中英文闭源数据集,包括中英文双语客观评测和中英文双语主观评测。其中,客观评测涵盖 语言、知识、推理、数学、代码与智能体 六个维度;主观评测涵盖 语言、知识、推理、代码、创作、对话 六个维度。
综合来看,5 月的客观评测和主观评测榜单大图如下:


最低0.47元/天 解锁文章
1074

被折叠的 条评论
为什么被折叠?



