NLP 3.4 Attention，self-attention

weixin_51182518

于 2021-02-22 09:33:22 发布

阅读量169

点赞数

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_51182518/article/details/113927735

版权

该博客探讨了Seq2Seq模型在处理长序列时面临的梯度消失问题，以及如何通过引入Attention机制来改善这一状况。Self-Attention在计算中考虑每个单词的重要性，解决了传统模型中长期依赖的问题，且能并行计算，提高效率。此外，博客还提及深度文本匹配的应用，如搜索引擎、聊天机器人和翻译，并介绍了如何利用卷积计算文本相似度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、回顾Seq2Seq模型

预处理中，要保证每个seq长度一致

输出时，找到长度最长的len，然后把其他输出补齐

在这里插入图片描述

结构的问题

1、梯度问题：当seq过长时，当前词无法捕获到很前面时刻的单词信息，梯度消失
2、应用的角度：w=（prev，c），对于某一个词的翻译，只需要观察原始seq中的某一部分的重要信息。使用attention解决
3、c没有考虑句子的长度
4、BottleNeck：决定了decoder的生成效果

在这里插入图片描述

2、Seq2Seq 的 Attention

attention:学习每个单词权重的过程

在这里插入图片描述

对于decoder中，每个时刻的单词生成考虑了encoder中每个时刻的输出值和h之间的关系。权值较大的会对于decoder的生成贡献更多。

3、Self-attention

3.1 Transformer

在这里插入图片描述

Feed forward neural network：激活函数

Impact between each other

在这里插入图片描述

q,k,v的维度不一定要和word embedding的dim一样。

为什么需要self-attention

Long term dependency：对于普通RNN模型作为encoder，如果decoder的部分只选择最后一个时刻的输出的话。最后一个时刻的输出会包含更多的靠后时刻的信息而忽略前面几个时刻的信息。Gradient vanishing 导致前几个时刻的梯度无法更新。
self-attention 解决： 在计算过程中，考虑了每个单词的weight/重要性。考虑了所有词的信息。
串行计算：时序类模型，无法并行计算。
self-attention 解决 q,k,v可以并行计算

4、深度文本匹配

4.1 应用场景

搜索引擎
chat-bot
翻译

4.2 单语义文本匹配

在这里插入图片描述

在这里插入图片描述

4.3 多语义文档表达

在这里插入图片描述

match过后的output就是[10,10,1]代表两句话每个单词之间的数值化的关系表示

可以使用image 卷积的方式计算两个文本的相似度
在这里插入图片描述

卷积核扫过match后矩阵的特征的过程也考虑了上下文的关系。

4.4 问题与问题的匹配和问题与答案的匹配

问题和问题之间的性质一样，可以共享一个网络参数
问题与答案应该由两个网络分别进行运算。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。