【Transformer】Attention Is All You Need

Transformer

Attention Is All You Need

Transformer完全基于注意力机制,它在处理序列转换任务时没有使用任何卷积层或循环神经网络(RNN)层 ,用多头自注意力替换 了编码器-解码器架构中最常用的循环层。

缩放点积注意力(Scaled Dot-Product Attention)

在这里插入图片描述

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V
计算注意力值:

  1. 计算Query与每一个Key的相似度得分(点乘)。注意力分数可以理解为Query、Key的相似度得分。
  2. 将相似度得分转换为归一化概率分布,即每个value对应的权重系数。
  3. 对Value进行加权求和

多头注意力(Multi-Head Attention)

在这里插入图片描述

M u l t i H e a d ( Q , K , V ) = C o n c a t ( h e a d 1 , . . . , h e a d h ) W O w h e r e   h e a d i = A t t e n t i o n ( Q W i Q , K W i K , V W i V ) 其中投影是参数矩阵  W i Q ∈ R d m o d e l × d k , W i K ∈ R d m o d e l ×

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值