对于注意力机制有很多博客都讲过了,也很好理解。但因为要写代码,具体如何计算self-attention 里贡献度比例 a 困扰了我几天。终于明白了,所以写个博客记录一下。
参考了https://lonepatient.top/2019/01/09/BERT-self-Attention.html,如果你觉得我写的太简略看不懂,参考这位的博客,他的博客比我写的详尽。
下面按计算流程进行梳理:
-
学习 W q W^q Wq
对于注意力机制有很多博客都讲过了,也很好理解。但因为要写代码,具体如何计算self-attention 里贡献度比例 a 困扰了我几天。终于明白了,所以写个博客记录一下。
参考了https://lonepatient.top/2019/01/09/BERT-self-Attention.html,如果你觉得我写的太简略看不懂,参考这位的博客,他的博客比我写的详尽。
下面按计算流程进行梳理:
学习 W q W^q Wq