本文是LLM系列文章,针对《Contrastive Preference Optimization: Pushing the Boundaries of LLM
Performance in Machine Translation》的翻译。
摘要
中等大小的大型语言模型(LLM)——那些具有7B或13B参数的模型——表现出有希望的机器翻译(MT)性能。然而,即使是性能最好的基于13B LLM的翻译模型,如ALMA,也与现有技术的传统编码器-解码器翻译模型或更大规模LLM(如GPT4)的性能不匹配。在这项研究中,我们弥合了这一性能差距。我们首先评估了在MT任务中监督微调LLM的缺点,强调了参考数据中存在的质量问题,尽管这是人为产生的。然后,与模仿参考翻译的监督微调相比,我们引入了对比偏好优化(CPO),这是一种训练模型以避免生成足够但不完美的翻译的新方法。将CPO应用于只有22K个平行句子和0.1%参数的ALMA模型会产生显著的改进。由此产生的模型被称为ALMA-R,可以在WMT’21、WMT’22和WMT’23测试数据集上与WMT竞赛获胜者和GPT-4的性能相匹配或超过。
1 引言
2 镀金还是镀金?审查黄金参考质量
3 对比偏好优化
4 实验
5 分析
6 结论
在这项研究中,我们最初提出了机器翻译任务中黄金参考文献的潜在
研究发现,中等规模的大型语言模型(LLM)在机器翻译(MT)中展现出潜力,但与传统编码器-解码器模型或更大规模的LLM相比仍有差距。通过对比偏好优化(CPO),研究人员解决了参考数据的质量问题,成功改进了ALMA模型,创造出ALMA-R,其性能在多个WMT测试集上可与GPT-4和WMT竞赛获胜者相媲美甚至超越。
已下架不支持订阅
2073

被折叠的 条评论
为什么被折叠?



