注意力机制在神经机器翻译与人工智能医疗中的应用
注意力机制在梵语 - 印地语机器翻译中的应用
在神经机器翻译领域,注意力机制的出现为解决翻译问题带来了新的思路。注意力机制基于对编码器输出结果的分析,诞生了对齐向量和上下文向量这两个重要概念。
- 对齐向量 :对齐向量与源序列大小相同,它为编码器的输出赋予权重,帮助解码器在每个时间步确定关注的重点。每个对齐向量的值代表源句子中对应单词的概率。例如,在梵语和印地语的翻译中,梵语单词 “taTra” 对应印地语单词 “Vahaan”,对齐向量会在概率上为这个最相关的单词赋予更高的权重。这个过程会在解码器的每个时间步重复进行。
- 上下文向量 :上下文向量是编码器输出的加权平均值,它是编码器输出与对齐向量的点积结果,用于计算解码器的最终输出。
为了提高翻译的准确性,有多种注意力类型可供选择。在这项研究中,使用了 Luong 的注意力机制来训练包含约 10000 个句子的梵语 - 印地语双语语料库。
| 语言对 | 句子数量 |
|---|---|
| 梵语 - 印地语 (SA - HI) | 10500 |
| 梵语 - 英语 (SA - EN) | 9000 |
整体的实验设置如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



