本文是LLM系列文章,针对《OMGEVAL:An Open Multilingual Generative Evaluation Benchmark for Large Language Models》的翻译。
摘要
现代大型语言模型(LLM)通常应使来自世界各地不同文化背景的个人受益。然而,最新的LLM高级生成性评估基准主要集中在英语上。为此,我们介绍了OMGEval,这是第一个开源多语言生成测试集,可以评估LLM在不同语言中的能力。对于每种语言,OMGEval提供了804个开放式问题,涵盖了LLM的广泛重要功能,如一般知识、逻辑推理等。每个问题都经过人工注释器的严格验证。值得注意的是,为了充分反映LLM在不同文化背景下的兼容性,我们对每种非英语语言进行了本地化。具体而言,OMGEval的当前版本包括5种语言(即Zh、Ru、Fr、Es、Ar)。继AlpacaEval之后,我们使用GPT-4作为评判器来自动对不同的模型输出进行评分,这与人类评估密切相关。我们在建议的OMGEval上评估了几个具有代表性的多语言LLM,我们相信这将为社区进一步了解和提高LLM的多语言能力提供宝贵的参考。OMGEval可在https://github.com/blcuicall/OMGEval访问.