循环神经网络与注意力机制在机器翻译中的应用
1. 循环神经网络基础与seq2seq模型
循环神经网络(RNN)是专门处理自然语言、时间序列、语音等序列数据的网络。如同卷积神经网络(CNN)利用图像的几何结构一样,RNN 利用输入数据的顺序结构。基础的 RNN 单元在处理前一时间步的状态时,会因反向传播时间(BPTT)的固有问题而出现梯度消失和梯度爆炸的情况,这促使了诸如长短期记忆网络(LSTM)、门控循环单元(GRU)和窥视孔 LSTM 等新型 RNN 单元架构的发展。同时,使 RNN 双向或有状态等简单方法可以提高其有效性。
RNN 有多种拓扑结构,每种都适用于特定的问题集。其中,seq2seq 拓扑结构在机器翻译领域首先受到关注,之后也应用于可以类比为机器翻译问题的场景。
2. seq2seq 模型训练及代码运行
下面是一个 seq2seq 模型训练结果的示例表格:
|序号|训练损失|BLEU 得分|英文句子|法语标签|法语预测|
|----|----|----|----|----|----|
|248|0.1208|4.931e - 02|i m getting old.|je me fais vieux.|je me fais vieux.|
|249|0.0837|4.856e - 02|it was worth a try.|ca valait le coup d essayer.|ca valait le coup d essayer.|
|250|0.0967|4.869e - 02|don t back away.|ne reculez pas!|ne reculez pas!|
RNN与注意力机制提升机器翻译
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



