神经网络机器翻译与注意力机制详解
1. 关键概念解读
在神经网络机器翻译的相关技术中,存在一些重要的概念和参数。表达式 $\left[ \overrightarrow{h_{t}} ; \overleftarrow{h_{t}} \right]$ 代表了时间步 $t$ 的组合记忆状态向量,它由 $\overrightarrow{h_{t}}$ 和 $\overleftarrow{h_{t}}$ 两个向量的元素拼接得到。
$\overrightarrow{W_{hh}}$ 和 $\overleftarrow{W_{hh}}$ 分别是前向传播和反向传播的隐藏状态连接权重;$\overrightarrow{W_{xh}}$ 和 $\overleftarrow{W_{xh}}$ 则是前向和反向传播中输入到隐藏状态的权重。$\overrightarrow{b}$ 和 $\overleftarrow{b}$ 分别是前向和反向传播在隐藏记忆状态激活时的偏置。$U$ 表示从组合隐藏状态到输出状态的权重矩阵,$c$ 表示输出的偏置。
函数 $f$ 通常是在隐藏记忆状态选择的非线性激活函数,常见的选择有 sigmoid 和 tanh,不过现在也开始使用 ReLU 激活函数,因为它能减少梯度消失和梯度爆炸的问题。函数 $g$ 则取决于具体的分类问题,对于多类问题,会使用 SoftMax 函数;对于两类问题,可以使用 sigmoid 或两类 SoftMax 函数。
2. 神经网络机器翻译模型架构
我们使用序列到序列(Seq2Seq)架构,以长短期记忆网络(LSTMs)作为编码器和解码器来构建神经网络机器翻译模型。与基于规则的机器翻译模型不同,这种模型可以进行端
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



