自然语言处理中的注意力机制与Transformer架构
1. 束搜索优化翻译模型
在翻译模型中,束搜索是一种有效的优化策略。例如,在初始阶段,“me gusta” 有 24% 的概率,“me encanta” 有 12% 的概率,当前 “me gustan” 暂时领先,但 “me gusta” 并未被淘汰。
束搜索的具体流程如下:
1. 设定束宽为 3,使用模型预测三个句子中的下一个单词,并计算所有 3000 个三字句子的概率。
2. 可能得到概率排名前三的句子,如 “me gustan los”(10%)、“me gusta el”(8%)和 “me gusta mucho”(2%)。
3. 下一步可能得到 “me gusta el fútbol”(6%)、“me gusta mucho el”(1%)和 “me gusta el deporte”(0.2%)。此时,“me gustan” 被淘汰,正确的翻译逐渐领先。
束搜索通过更明智地使用模型,在无需额外训练的情况下提升了编码器 - 解码器模型的性能。不过,该模型在翻译长句子时效果不佳,这主要是由于循环神经网络(RNN)的短期记忆有限。
2. 注意力机制解决长句翻译难题
2.1 注意力机制的核心思想
注意力机制的核心思想是让解码器在每个时间步聚焦于编码器编码的合适单词。以 “soccer” 翻译为 “fútbol” 为例,传统路径较长,而注意力机制能使输入单词到其翻译的路径更短,减少了 RNN 短期记忆的限制影响。
超级会员免费看
订阅专栏 解锁全文
793

被折叠的 条评论
为什么被折叠?



