【学习笔记】李宏毅2021春机器学习课程第4.2节：自注意力机制（二）

Harryline-lx

于 2021-07-19 16:37:44 发布

阅读量1.2k

点赞数 2

分类专栏：机器学习文章标签：机器学习人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43992003/article/details/118901392

版权

文章目录

1 从矩阵的角度来理解Self-Attention的运作

接下来我们从矩阵乘法的角度来看一下Self-Attention是如何运作的。

我们现在已经知道每一个 $a$ 都产生一个对应的 $q, k, v$ ：

我们每一个 $a$ 都要乘上一个矩阵 $W^q$ 来得到对应的 $q^i$ ，这些不同的 $a$ 其实合起来，当作一个矩阵来看待，这个矩阵我们用 $I$ 来表示，这个 $I$ 矩阵的四个 column 就是 $a^1$ 到 $a^4$ 。

$I$ 乘上 $W^q$ 就得到另外一个矩阵，我们用 $Q$ 来表示它，这个 $Q$ 矩阵的四个 column 就是 $q^1$ 到 $q^4$ 。所以我们之前那个从 $a^1$ 到 $a^4$ ，得到 $q^1$ 到 $q^4$ 的操作，看起来好像是分开计算的，但实际上就是把 $I$ 这个矩阵，乘上矩阵 $W^q$ ，得到矩阵 $Q$ 。所以说 $q^1$ 到 $q^4$ 其实是并行产生的，而** $W^q$ 是 network 的参数，它是会被 learn 出来的**。

那事实上呢，我们把 $I$ 分别乘上矩阵 $W^q, W^k, W^v$ 就能得到相应的 $Q, K, V$ 矩阵，也就得到了 $a^1$ 到 $a^4$

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。