Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation

828 篇文章

已下架不支持订阅

本文研究大型语言模型(LLM)在评估机器翻译质量时如何利用源语言和参考译文。实验表明,尽管LLM在翻译评估任务中取得进步,但它们在跨语言能力上存在不足,有时源信息反而降低评估准确性。细粒度错误检测也显示出类似现象。未来研究将探索如何提升LLM的跨语言能力,以改进其在翻译评估中的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation》的翻译。

迷失在源语言中:大型语言模型如何评估机器翻译的质量

摘要

大型语言模型(LLM)在机器翻译评估任务中取得了显著的成果,但在如何利用所提供的数据进行评估方面仍存在知识差距。本研究旨在探讨LLM如何在评估翻译时利用来源和参考信息,最终目的是更好地了解LLM的工作机制。为此,我们设计了各种输入模式和模型类型的受控实验,并使用粗粒度和细粒度提示来辨别源信息与参考信息的效用。令人惊讶的是,我们发现参考信息显著提高了评估准确性,而来源信息有时会适得其反,这表明在使用LLM评估翻译时缺乏跨语言能力。我们进一步对LLM的翻译错误检测进行了元评估,观察到了类似的现象。这些发现也为LLM提供了一个潜在的研究方向,即充分利用LLM的跨语言能力,在机器翻译评估任务中获得更好的性能。

1 引言

2 相关工作

3 粗粒度分数预测

4 细粒度错误检测

5 结论

在本文中,我们对大型语言模型在翻译评估任务中结合来源和参考信息的能力进行了实证分析,同时使用了粗略和细粒度的提示。当使用不同的输入模式时,我们评估了开源和闭源LLM的性能。我们的实证结果表明,目前的LLM在翻译评估过程中未能有效利用源信息,甚至偶尔会对翻译效果不利。此外,我们的研

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值