26、神经网络机器翻译与注意力机制详解

神经网络机器翻译与注意力机制详解

1. 关键概念解读

在神经网络机器翻译的相关技术中,存在一些重要的概念和参数。表达式 $\left[ \overrightarrow{h_{t}} ; \overleftarrow{h_{t}} \right]$ 代表了时间步 $t$ 的组合记忆状态向量,它由 $\overrightarrow{h_{t}}$ 和 $\overleftarrow{h_{t}}$ 两个向量的元素拼接得到。

$\overrightarrow{W_{hh}}$ 和 $\overleftarrow{W_{hh}}$ 分别是前向传播和反向传播的隐藏状态连接权重;$\overrightarrow{W_{xh}}$ 和 $\overleftarrow{W_{xh}}$ 则是前向和反向传播中输入到隐藏状态的权重。$\overrightarrow{b}$ 和 $\overleftarrow{b}$ 分别是前向和反向传播在隐藏记忆状态激活时的偏置。$U$ 表示从组合隐藏状态到输出状态的权重矩阵,$c$ 表示输出的偏置。

函数 $f$ 通常是在隐藏记忆状态选择的非线性激活函数,常见的选择有 sigmoid 和 tanh,不过现在也开始使用 ReLU 激活函数,因为它能减少梯度消失和梯度爆炸的问题。函数 $g$ 则取决于具体的分类问题,对于多类问题,会使用 SoftMax 函数;对于两类问题,可以使用 sigmoid 或两类 SoftMax 函数。

2. 神经网络机器翻译模型架构

我们使用序列到序列(Seq2Seq)架构,以长短期记忆网络(LSTMs)作为编码器和解码器来构建神经网络机器翻译模型。与基于规则的机器翻译模型不同,这种模型可以进行端

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值