The BELEBELE Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

BELEBELE：122种语言变体的平行阅读理解基准

最新推荐文章于 2025-12-11 12:02:01 发布

UnknownBody

最新推荐文章于 2025-12-11 12:02:01 发布

阅读量199

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习深度学习人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133683184

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文提出BELEBELE，一个涵盖122种语言变体的阅读理解数据集，用于评估高、中、低资源语言的模型。该数据集具有精心设计的问题，旨在挑战最先进的语言模型，提供直接比较不同语言之间模型性能的可能性。研究发现，虽然大型语言模型在英语上的表现突出，但预训练在多语言数据上的小型模型在理解和处理更多语言方面更胜一筹。

本文是LLM系列文章，针对《The BELEBELE Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants》的翻译。

摘要

我们提出了BELEBELE，一个包含122种语言变体的多项选择机器阅读理解(MRC)数据集。该数据集显著扩展了自然语言理解(NLU)基准的语言覆盖范围，能够评估高、中、低资源语言的文本模型。每个问题都基于FLORES-200数据集中的一段短文，并有四个选择答案。这些问题经过精心设计，以区分具有不同一般语言理解水平的模型。事实证明，英语数据集本身就很难挑战最先进的语言模型。由于完全并行，该数据集可以直接比较所有语言之间的模型性能。我们使用该数据集来评估多语言屏蔽语言模型(mlm)和大型语言模型(llm)的能力。我们提出了广泛的结果，并发现尽管在以英语为中心的llm中存在显著的跨语言迁移，但在平衡多语言数据上预训练的小得多的mlm仍然理解更多的语言。我们还观察到，在低资源语言上，更大的词汇量和有意识的词汇构建与更好的表现相关。总的来说，BELEBELE为评估和分析NLP系统的多语言能力开辟了新的途径。