Transformer:论文《Attention is all you need》+李宏毅课程

Transformer是一种序列到序列模型,其核心是Self-Attention机制,允许同时处理输入序列信息,提高训练效率。Encoder由多个包含多头自注意力和全连接层的重复模块组成,Decoder在Encoder基础上增加了一个额外的支层,考虑了位置信息。Self-Attention通过计算query、key和value的加权求和来选择性地利用输入序列信息,而Multi-head Self-Attention则能捕捉不同位置的多种信息。此外,Positional Encoding引入了位置信息,以弥补Self-Attention缺乏的位置敏感性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Transformer

Seq2seq model with Self-attention
在这里插入图片描述
在RNN中虽然用到了输入序列的全部信息,但是很难实现输入序列词的同时训练,在self-attention layer中,目标序列b1,b2,...,bib_1,b_2,...,b_ib1,b2,...,bi中每一个都是基于全部输入序列而得到的,并且它们都是同时训练的。

Transformer结构:
在这里插入图片描述
Encoder:
编码器由6个相同的层堆叠在一起,每一层又有两个支层。第一个支层是一个多头的自注意机制,第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接,然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是dmodeld_{model}dmodel

Decoder:
解码器也是堆叠了六个相同的层。不过每层除了编码器中那两个支层,解码器还加入了第三个支层,如图中所示同样也用了residual以及layer normalization。

Self-attention layer具体的过程:

第一步:
在这里插入图片描述
其中:
q:query(to match others):qi=Wqaiq:query(to\ match\ others):q^i=W^qa^iq:query(to match others):qi=Wqai
k:key(to be matched):ki=Wkaik:key(to\ be\ matched):k^i=W^ka^ik:key(to be matched):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值