【论文阅读】Towards Robust Neural Machine Translation

最新推荐文章于 2024-01-23 14:02:12 发布

原创最新推荐文章于 2024-01-23 14:02:12 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

论文阅读Robustness 专栏收录该内容

1 篇文章

订阅专栏

这篇ACL2018的论文来自腾讯，探讨如何通过对抗训练提升神经机器翻译模型的鲁棒性。研究发现输入的微小扰动可能影响翻译质量，因此提出在输入句子上添加扰动，并在编码器和解码器中设计目标函数，以确保模型在面对扰动时仍能生成稳定输出。论文介绍了两种添加扰动的策略：词汇级别和特征级别，并强调模型的通用性和翻译性能的提升。

论文信息

ACL2018 来自腾讯

提出背景

在神经机器翻译中，由于引入了循环神经网络和注意力机制，上下文中的每个词都可能影响模型的全局输出结果，类似于蝴蝶效应。
比如说，同声传译里面的同音异形词；文本中的拼写错误
输入的小的扰动会影响神经机器翻译的质量，在这篇文章中提出了利用对抗训练来提高NMT模型的robustness的方法。

具体方法

该方法的架构示意图如下图所示：

其工作过程为：给定一个输入句子 x，首先生成与其对应的扰动输入 x’，接着采用对抗训练，让编码器对于 x 和 x’ 生成相似的中间表示，同时要求解码器端输出相同的目标句子 y。这样能使得输入中的微小扰动不会导致目标输出产生较大差异。
对于翻译过程来说，有两个阶段：首先把输入x编码成隐藏状态 $H_x$ ，然后从隐藏状态 $H_x$ 中解码得到翻译y。
模型有两个目标：
（1）编码得到的 $H_{x'}$ 和 $H_{x}$ 相近。
（2）给定 $H_{x'}$ ，解码器可以输出robust翻译y。

训练的目标函数

$J(\theta)=\sum\limits_{<x,y>\in S}(L_{true}(x,y;\theta_{enc},\theta_{dec})+ \alpha \sum\limits_{x'\in N(x)}{L_{inv}(x,x';\theta_{enc},\theta_{dec}}) +\beta \sum\limits_{x'\in N(x)}{L_{noisy}(x,y;\theta_{enc},\theta_{dec}) })$
其中第一项和第三项的计算方法是：
$\widehat{\theta}=argmin L(x,y;\theta)=argmin{\sum\limits_{<x,y>\in S}-logP(y|x;\theta)}$
$\theta$ 表示的是可以训练的参数。第二项表示的是adversarial loss。