Transformer及其子孙后代

文章详细介绍了Transformer模型的核心——自注意力机制,以及BERT和GPT系列模型的发展和改进,包括BERT的预训练任务和GPT的自回归特性。文中还提到了相关变体如Transformer-XL、RoBERTa和ELECTRA等的创新点,以及它们如何提升模型性能和处理长序列的能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

三大灵魂模型

Transformer

attention is all you need,现在已经是money is all you need时代了(x

首先介绍自注意力机制

Atention ⁡ ( Q , K , V ) = softmax ⁡ ( Q K T d k ) V \operatorname{Atention}(Q,K,V)=\operatorname{softmax}(\dfrac{QK^T}{\sqrt{d_k}})V Atention(Q,K,V)=softmax(dk QKT)V

q,k和v都是原输入x通过变换矩阵得到的

q和k相乘得到系数矩阵,用softmax进行归一化,再乘v得到加权后的表示,这就是自注意力做的事情
在这里插入图片描述

过程如图:

在这里插入图片描述

模型图
在这里插入图片描述
encoder与decoder,有三个多头注意力,decoder下面那个多头注意力进行了mask,因为不能让前面的token直接看到后面token的信息,会造成泄露
在这里插入图片描述

位置编码(绝对位置):

P E ( p o s , 2 i ) = s i n ( p o s / 1000 0 2 i / d model ) P E ( p o s , 2 i + 1 ) = c o s ( p o s / 1000 0 2 i / d model ) \begin{array}{c}PE_{(pos,2i)}=sin(pos/10000^{2i/d_{\text{model}}})\\ PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{\text{model}})}\\ \end{array} PE(pos,2i)=sin(pos/100002i/dmodel)PE(pos,2i+1)=cos(pos/10000

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值