OpenCompass 支持魔搭 P-MMEval 数据集：面向大模型的多语言平行评测集

最新推荐文章于 2025-09-20 08:35:55 发布

原创

最新推荐文章于 2025-09-20 08:35:55 发布 · 1.3k 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #语言模型 #大语言模型 #大模型评测

近期，通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval，涵盖了高效的基础和专项能力数据集。此外，P-MMEval 确保所有挑选的数据集中的多语言覆盖一致，并提供跨多种语言的并行样本，最高支持来自 8 个不同语族的 10 种语言（英、中、阿、西、日、韩、泰、法、葡、越）。因此，P-MMEval 有助于全面评估多语言能力，并进行跨语言迁移能力的比较分析。P-MMEval 也在第一时间接入了 OpenCompass 的评测体系，可使用司南 OpenCompass 开源工具完成评测任务。

司南评测体系 OpenCompass 面向大模型的开源方和使用者，提供开源、高效、全面的大模型评测开放平台。通过完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测，并定期公布评测结果榜单。

数据集链接：

https://www.modelscope.cn/datasets/modelscope/P-MMEval

1. 引言

在开发和迭代大语言模型 (LLM) 时，提供准确且并行的评估结果对于识别其多语言能力和量化性能至关重要。早期的工作主要集中在单一任务的评估上，例如 MHellaSwag、XLSum、HumanEval-XL 和 MGSM。近期的研究提出了一些大规模多语言多任务评估基准，统一了多个有代表性的的独立基准任务，如 XTREME、XTREME-R、

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。