OpenCompass 支持魔搭 P-MMEval 数据集:面向大模型的多语言平行评测集

近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。此外,P-MMEval 确保所有挑选的数据集中的多语言覆盖一致,并提供跨多种语言的并行样本,最高支持来自 8 个不同语族的 10 种语言(英、中、阿、西、日、韩、泰、法、葡、越)。因此,P-MMEval 有助于全面评估多语言能力,并进行跨语言迁移能力的比较分析。P-MMEval 也在第一时间接入了 OpenCompass 的评测体系,可使用司南 OpenCompass 开源工具完成评测任务。

图片

司南评测体系 OpenCompass 面向大模型的开源方和使用者, 提供开源、高效、全面的大模型评测开放平台。通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。

数据集链接:

https://www.modelscope.cn/datasets/modelscope/P-MMEval

1. 引言

在开发和迭代大语言模型 (LLM) 时,提供准确且并行的评估结果对于识别其多语言能力和量化性能至关重要。早期的工作主要集中在单一任务的评估上,例如 MHellaSwag、XLSum、HumanEval-XL 和 MGSM。近期的研究提出了一些大规模多语言多任务评估基准,统一了多个有代表性的的独立基准任务,如 XTREME、XTREME-R、

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值