司南 OpenCompass 5 月榜单揭晓,全新大模型对战榜单首次登场

司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!

5 月大语言模型榜单

本次榜单囊括了国内外共 40 个大语言模型,包含:GPT-4o、Claude3、Qwen-Max、文心一言、Yi-Large、Moonshot-v1、阶跃星辰、豆包等。

本次榜单相较于 4 月榜单的主要更新包括:

  • 新增了 GPT-4o、豆包、Qwen-Max-0428、Yi-Large 等闭源模型,Yi-1.5 系列、Nanbeige2 等开源模型;去除了若干无法公开访问的模型,或同系列存在更新版本的模型

  • 更换了原综合性客观评测基准中数学能力下的测试数据,新增了代码能力下的“算法面试”、“算法竞赛”两个细分任务

  • 原中文主观评测数据更新为中英文双语主观评测数据,新增代码、对话两个能力,使用 GPT-4o 作为评价模型

评测数据集采用中英文闭源数据集,包括中英文双语客观评测中英文双语主观评测。其中,客观评测涵盖 语言、知识、推理、数学、代码与智能体 六个维度;主观评测涵盖 语言、知识、推理、代码、创作、对话 六个维度。

综合来看,5 月的客观评测主观评测榜单大图如下:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值