近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。此外,P-MMEval 确保所有挑选的数据集中的多语言覆盖一致,并提供跨多种语言的并行样本,最高支持来自 8 个不同语族的 10 种语言(英、中、阿、西、日、韩、泰、法、葡、越)。因此,P-MMEval 有助于全面评估多语言能力,并进行跨语言迁移能力的比较分析。P-MMEval 也在第一时间接入了 OpenCompass 的评测体系,可使用司南 OpenCompass 开源工具完成评测任务。

司南评测体系 OpenCompass 面向大模型的开源方和使用者, 提供开源、高效、全面的大模型评测开放平台。通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。
数据集链接:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
1. 引言
在开发和迭代大语言模型 (LLM) 时,提供准确且并行的评估结果对于识别其多语言能力和量化性能至关重要。早期的工作主要集中在单一任务的评估上,例如 MHellaSwag、XLSum、HumanEval-XL 和 MGSM。近期的研究提出了一些大规模多语言多任务评估基准,统一了多个有代表性的的独立基准任务,如 XTREME、XTREME-R、

最低0.47元/天 解锁文章
2487

被折叠的 条评论
为什么被折叠?



