本文是LLM系列文章,针对《EVALUATION METHODOLOGY FOR LARGE LANGUAGE MODELS FOR MULTILINGUAL DOCUMENT QUESTION AND ANSWER 》的翻译。
摘要
随着大型语言模型(LLM)的广泛采用,本文研究了这些模型的多语言能力。我们的初步结果表明,将母语上下文、问答翻译成高资源语言产生了最好的结果。
1 引言
2 方法
3 结果
4 结论
我们提出了一种有用的方法来评估LLM在多语言设置中的性能。我们展示了几个场景的结果,这些结果基于为测试内部模型而提出的评估过程,然后将其发布为面向客户的产品的各种组件。这项研究中出现的扩增总结如下:
- 在多语言场景中,最好用英语操作(如果可能的话)。这引入了额外的成本,无论是通过额外调用LLM进行翻译还是通过使用翻译服务,但全面提高了结果。
- 各种GPT版本之间存在很大差距。在多语言场景中使用最新模型是合理的。
- 对于给定的任务来说,自然使用不同语言的数据集要困难得多,但GPT-4提供了不错的结果,尤其是在使用英语(包括翻译)时。