机器翻译中的形式控制是什么?
机器翻译模型通常为每个输入返回单一翻译,而不考虑预期用例或目标受众。这种无条件翻译在许多情况下很有用,但未能考虑世界不同地区语言使用的差异。让模型在不同有效选项之间进行选择可能导致翻译使用不恰当的形式程度,在某些文化和用例中可能被视为粗鲁或刺耳。
采用两阶段微调控制翻译形式
使用两阶段微调策略训练形式控制的机器翻译模型。首先,通过在大规模平行翻译语料库上微调mBART多语言语言模型来训练通用神经机器翻译模型。然后在形式标注数据上进一步微调通用NMT模型。每个训练样本都标注有形式标签<formal>或<informal>。在推理过程中,操作员可以通过将选定的形式标签附加到输入文本来控制所需的翻译形式级别。
解决数据稀疏性问题
IWSLT共享任务中的一个独特挑战是数据稀疏性:只有几百个形式标注样本可用于微调NMT模型。因此,设计了一种数据增强方法,使用语言线索自动为目标文本的小型种子集标注形式标签。然后使用种子集训练多语言BERT语言模型作为多语言文本形式分类器。使用该分类器进一步挖掘大规模平行语料库以找到额外的形式标注数据。
后编辑策略
系统性能的关键是一套后编辑技术,旨在进一步校正形式模型生成的输出。首先提出了两种利用特定语言形式规则的后编辑技术。第一种称为T-V形式转换,可以识别和调整用于传达形式性或熟悉度的不同代词的上下文使用。第二种技术称为动词变位,改变动词以表达不同的形式级别。例如,在日语中,可以向动词添加"-ます[masu]"后缀,使句子变得礼貌而不改变其含义。
除此之外,还设计了使用序列到序列指针生成器网络的与语言无关的后编辑策略。指针网络是一种序列到序列模型,其输出是指回输入的指针,因此它将输入携带到输出。指针生成器网络是一种指针网络,具有为特定输入生成新输出的选项。因此,它是形式控制等应用的绝佳选择,该应用仅更改输入文本的某些元素。
结果
在使用IWSLT挑战测试集的离线实验中,发现使用形式分类器的数据增强将英日翻译中的形式控制准确率提高了2.3个百分点。还发现在微调mBART模型之上的后编辑策略是提高性能的简单有效方法。特别是对于日语翻译,它们将正式准确率从93.9%提高到95.5%,非正式准确率从98.1%提高到100%。对于印地语,实现了100%的正式翻译准确率,非正式准确率从84.4%提高到97.8%。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
6643

被折叠的 条评论
为什么被折叠?



