本文是LLM系列文章,针对《EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation》的翻译。
EthioLLM:具有任务评估的埃塞俄比亚语言多语言大语言模型
摘要
大型语言模型(LLM)由于其在各种下游自然语言处理(NLP)任务中的出色性能,近年来越来越受欢迎。然而,由于训练LLM的资源不足,低资源语言仍然落后于NLP领域当前最先进的(SOTA)发展。埃塞俄比亚语言表现出显著的语言多样性,包括各种各样的文字,并具有深刻的宗教和文化意义。本文介绍了埃塞俄比亚LLM——五种埃塞俄比亚语言(阿姆哈拉语、盖兹语、阿凡奥罗莫语、索马里语和提格里尼亚语)和英语的多语言大型语言模型,以及埃塞俄比亚语标记——各种下游NLP任务的新基准数据集。我们评估了这些模型在五个下游NLP任务中的性能。我们开源了我们的多语言语言模型、各种下游任务的新基准数据集以及特定任务的微调语言模型,并讨论了模型的性能。我们的数据集和模型可在EthioNLP HuggingFace存储库中获得。