个人笔记
讲的太好了,一听就懂!视频链接
一、 理论
1. Self-Attention、Multi-head Self-Attention最终效果:
输入:X1 X2 ------self attention------ 输出 Y1 Y2
四者shape相同;
Y1是X1 X2不同权重的加权和;
Y2是X1 X2不同权重的加权和;
2. 计算过程
a1 a2 向量 WQ WK WV 矩阵
shape 1,dmodel dmodel,dk
计算公式如下:
- 第一步:求取q k v
多个a向量拼接成矩阵;矩阵相乘并行运算速度快
- 第二步: 求取权重系数
- 第三步:加权相加