自然语言翻译与注意力机制:从基础到Transformer架构
1. 语言翻译模型的工作流程与实验结果
在语言翻译模型中,翻译流程通常从起始符号(START symbol)开始。进入最内层循环后,使用解码器模型预测单个单词,并读取内部状态。此数据将作为下一次迭代时解码器模型的输入,持续迭代直至模型生成结束符号(STOP token)或达到指定的单词数量。最后,把生成的标记化序列转换为对应的单词序列并输出。
经过20个周期的训练,模型在训练数据和测试数据上都取得了较高的准确率指标。不过,在机器翻译任务中,准确率并非最具意义的指标,但它仍能表明翻译网络是有效的。更值得关注的是查看样本集的翻译结果。
以下是一个示例:
['PAD', 'PAD', 'PAD', 'PAD', 'PAD', 'PAD', 'PAD', 'PAD', 'PAD', 'PAD', "j'ai", 'travaillé', 'ce', 'matin']
['i', 'worked', 'this', 'morning', 'STOP', 'PAD', 'PAD', 'PAD', 'PAD', 'PAD']
['i', 'worked', 'this', 'morning', 'STOP']
第一行是法语输入句子,第二行是对应的训练目标,第三行是训练好的模型的预测结果。在此例中,模型的翻译完全正确。
更多示例如下表所示:
| 源语言 | 目标语言 | 预测结果 |
| — | — | — |
| je déteste manger seule | i hate eating alone |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



