(一)从rnn attention 到 attention withouot rnn 再到transformer

本文介绍了注意力机制在深度学习中的应用,从seq2seq模型中的attention,到无需RNN的attention,再到self-attention层。在seq2seq中,attention通过计算Q、K、V来获取生成c的权重;去掉RNN后,直接用词向量获取K、V;self-attention层则在一个序列输入中,让每个输出都与所有输入相关。Transformer利用self-attention实现高效信息传递。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考:https://www.youtube.com/watch?v=aButdUV0dxI&list=PLvOO0btloRntpSWSxFbwPIjIum3Ub4GSC

1、attention for seq2seq model

 seq2seq包含一个encoder和一个decoder。encoder类似于rnn,deocder类似于文本生成器。

attention机制如何引入?

在计算decoder的每一个step生成时,会用到attention,那么其中的Q、K、V如何去理解?

首先,我们想得到每个step的生成c,c肯定是由权重乘积再相加得来的。那么权重参数以及与它相乘的数肯定是与encoder有关的。

1)对于encoder的每一个step的状态h,分别乘以W(k) W(v),得到key value ,所有的step的key value组成大矩阵K V。

2)K与decoder的当前step的状态s 进行softmax操作,得到权重矩阵 A。

3)A再与V值进行加权求和得到当前step的结果c。

2、attention without rnn

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值