MASK-ALIGN: Self-Supervised Neural Word Alignment阅读笔记

MASK-ALIGN是一种自监督单词对齐模型,利用目标侧全上下文并行屏蔽每个目标语言token进行预测。引入LeakyAttention和Static-KVAttention机制解决特定token上的高交叉注意权重问题及信息泄露问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MASK-ALIGN

Abstract

词对齐是一种旨在对齐源句和目标句之间的翻译等价词的方法

目前的无监督神经对齐方法主要集中于从神经机器翻译模型中诱导对齐,而没有利用目标序列中的完整上下文。

提出了MASK-ALIGN,一种利用目标侧全上下文的自监督单词对齐模型。

模型并行地屏蔽每个目标语言token,并根据源语言token和剩余目标语言token预测它。

所基于的假设:对恢复被屏蔽目标令牌贡献最大的源令牌应该是对齐的。

方法:

  • 提出Leaky Attention,它缓解了特定token(如周期)上的高交叉注意权重的问题
  • 提出Static-KV Attention,需要并行处理所有的预测目标序列中被掩码词语。

2 Approach

在这里插入图片描述

Static-KV Attention

做到这一点,需要避免掩码token的表示卷入其自身的预测过程。

首先将q与 k、v进行分离,以防止待预测令牌本身参与预测(被预测词本身不能提供任何信息)

在这里插入图片描述

隐藏层 h i h_i hi是来自 y i y_i yi通过注意k和v计算得到。 K ≠ i \textbf{K}_{\neq i} K=i V ≠ i \textbf{V}_{\neq i} V=i 代表 y \ y i \textbf{y}\backslash y_i y\yi

在这里插入图片描述

在跨解码器更新每个位置的k和v输入时,会造成信息泄露,因为它们将包含前一层每个位置的表示。因此,我们保持键和值输入不变,只更新查询输入

在这里插入图片描述

这里的static-KV是指在我们的方法中,键和值在不同的层中是不变的。static-KV取代解码器中所有自注意力层。

Leaky Attention

在这里插入图片描述

这种现象是由于基于NMT的对齐器无法处理在另一端没有对应物的令牌,因为在统计对齐器中没有广泛使用的NULL token。

在计算交叉注意权重时,泄漏注意除了编码器输出外,还提供了一个额外的“泄漏”位置。作为空标记,此泄漏位置有望解决有偏注意权重问题。

具体来说,我们将密钥和值向量参数化为交叉注意中泄漏位置的kNull和vNull,并将它们与编码器输出的变换向量连接起来

在这里插入图片描述

在这里插入图片描述

Train

为了更好地利用来自两个方向的注意力权重,我们在训练过程中应用了一致性损失来改进我们模型的对称性,

在这里插入图片描述

Inference

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值