如何理解self attention中的QKV矩阵
如何理解self attention中的QKV矩阵
疑问:三个矩阵的形状是一样的(embd_dim*embd_dim),作用也都是对输入句子的embedding做线性变换(tf.matmul(Q,input_value),tf.matmul(K,input_value),tf.matmul(V,input_value))。
那么,为什么需要三个矩阵QKV。
对于这个问题,在我第一次看了b站博主视频https://www.bilibili.com/video/BV1P4411F77q(强烈推荐)。就已经
原创
2021-03-15 22:10:56 ·
11318 阅读 ·
0 评论