【学习笔记】李宏毅2021春机器学习课程第4.2节:自注意力机制(二)

1 从矩阵的角度来理解Self-Attention的运作

接下来我们从矩阵乘法的角度来看一下Self-Attention是如何运作的。

我们现在已经知道每一个 a a a 都产生一个对应的 q , k , v q, k, v q,k,v

image-20210409100334528

我们每一个 a a a 都要乘上一个矩阵 W q W^q Wq 来得到对应的 q i q^i qi这些不同的 a a a 其实合起来,当作一个矩阵来看待,这个矩阵我们用 I I I 来表示,这个 I I I 矩阵的四个 column 就是 a 1 a^1 a1 a 4 a^4 a4

image-20210409100755718

I I I 乘上 W q W^q Wq 就得到另外一个矩阵,我们用 Q Q Q 来表示它,这个 Q Q Q 矩阵的四个 column 就是 q 1 q^1 q1 q 4 q^4 q4 。所以我们之前那个从 a 1 a^1 a1 a 4 a^4 a4,得到 q 1 q^1 q1 q 4 q^4 q4 的操作,看起来好像是分开计算的,但实际上就是 I I I 这个矩阵,乘上矩阵 W q W^q Wq,得到矩阵 Q Q Q。所以说 q 1 q^1 q1 q 4 q^4 q4 其实是并行产生的,而** W q W^q Wq是 network 的参数,它是会被 learn 出来的**。

image-20210409101331347

那事实上呢,我们把 I I I 分别乘上矩阵 W q , W k , W v W^q, W^k, W^v Wq,Wk,Wv 就能得到相应的 Q , K , V Q, K, V Q,K,V 矩阵,也就得到了 a 1 a^1 a1 a 4 a^4

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值