本文是LLM系列文章,针对《Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation》的翻译。
摘要
大型语言模型(LLM)在机器翻译评估任务中取得了显著的成果,但在如何利用所提供的数据进行评估方面仍存在知识差距。本研究旨在探讨LLM如何在评估翻译时利用来源和参考信息,最终目的是更好地了解LLM的工作机制。为此,我们设计了各种输入模式和模型类型的受控实验,并使用粗粒度和细粒度提示来辨别源信息与参考信息的效用。令人惊讶的是,我们发现参考信息显著提高了评估准确性,而来源信息有时会适得其反,这表明在使用LLM评估翻译时缺乏跨语言能力。我们进一步对LLM的翻译错误检测进行了元评估,观察到了类似的现象。这些发现也为LLM提供了一个潜在的研究方向,即充分利用LLM的跨语言能力,在机器翻译评估任务中获得更好的性能。
1 引言
2 相关工作
3 粗粒度分数预测
4 细粒度错误检测
5 结论
在本文中,我们对大型语言模型在翻译评估任务中结合来源和参考信息的能力进行了实证分析,同时使用了粗略和细粒度的提示。当使用不同的输入模式时,我们评估了开源和闭源LLM的性能。我们的实证结果表明,目前的LLM在翻译评估过程中未能有效利用源信息,甚至偶尔会对翻译效果不利。此外,我们的研