Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136529075

本文研究大型语言模型（LLM）在评估机器翻译质量时如何利用源语言和参考译文。实验表明，尽管LLM在翻译评估任务中取得进步，但它们在跨语言能力上存在不足，有时源信息反而降低评估准确性。细粒度错误检测也显示出类似现象。未来研究将探索如何提升LLM的跨语言能力，以改进其在翻译评估中的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation》的翻译。

摘要

大型语言模型（LLM）在机器翻译评估任务中取得了显著的成果，但在如何利用所提供的数据进行评估方面仍存在知识差距。本研究旨在探讨LLM如何在评估翻译时利用来源和参考信息，最终目的是更好地了解LLM的工作机制。为此，我们设计了各种输入模式和模型类型的受控实验，并使用粗粒度和细粒度提示来辨别源信息与参考信息的效用。令人惊讶的是，我们发现参考信息显著提高了评估准确性，而来源信息有时会适得其反，这表明在使用LLM评估翻译时缺乏跨语言能力。我们进一步对LLM的翻译错误检测进行了元评估，观察到了类似的现象。这些发现也为LLM提供了一个潜在的研究方向，即充分利用LLM的跨语言能力，在机器翻译评估任务中获得更好的性能。