Transformer浅谈

Transformer模型通过自注意力机制改变了处理时序数据的方式,实现了并行计算,优于传统的RNN。该机制包括权重矩阵WQ、WK、WV与输入相乘得到q、k、v向量,通过计算得分并应用softmax,得到每个位置的注意力权重。前馈神经网络由两层ReLU激活的全连接层组成。解码器中,除了编码器的注意力机制,还引入了编码-解码注意力,并使用mask防止当前位置看到未来信息。训练与预测时,要注意输出的右移操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Transformer用自注意力机制来处理时序数据,不同于RNN的串行,Transfomer因为每个时间步可以同时计算,可以实现并行。

自注意力机制:

利用三个权重矩阵,即WQ,WK,WV(如果是多个WQ,WK,WV则为多头注意力),与输入x相乘得到向量q,k,v。不同的x对应不同的q,k,v。计算当前x的值时,将当前x的q分别与其他x的k相乘再分别除以k维度的开方。得到的值进行softmax。这样当前的x对每一个x(包含自己)都有一个得分。再将得分与每个x对应的v相乘,再将左右所有乘的结果相加得到当前x的z。

前馈神经网络:

使用全连接网络,其中含有两个ReLU激活函数

解码器:

相比编码器多了编码-解码注意力机制,不同的是其使用的是encoder输出的q。

 

采坑点:

1.transformer解码器中的encoder-decoder multi-head attention同样使用了mask

2.decod

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值