十分推荐看这个UP主的视频,没有特别复杂的数学推导,但是也有一定的深度,看完相信一定会有收获,同时本Blog也可以看成对该视频的总结记录

1.旋转矩阵:

等价于将一个向量逆时针旋转度
我们规定如下记号:

那么有下面几个性质成立:


2.注意力机制:
由于我们现在考虑的都是二维情景,我们就不妨将一个词的Q,K都看成二维向量,也就是:
十分推荐看这个UP主的视频,没有特别复杂的数学推导,但是也有一定的深度,看完相信一定会有收获,同时本Blog也可以看成对该视频的总结记录

1.旋转矩阵:

等价于将一个向量逆时针旋转度
我们规定如下记号:

那么有下面几个性质成立:


2.注意力机制:
由于我们现在考虑的都是二维情景,我们就不妨将一个词的Q,K都看成二维向量,也就是:
1068
1233
1146
3824
1037

被折叠的 条评论
为什么被折叠?