注意力机制 pointer network
参考1:李宏毅https://www.bilibili.com/video/av9770302?p=9(上图应该省略了一个归一化层,模型通过标签知道应该(x1,y1)对应的值是最大的,就会学习到这样一个概率分布,这里直接将attention的weight作为output的distribution)把(x1,y1)丢进去产生新的z1,继而产生新的attention的weight...
原创
2020-02-19 07:45:40 ·
706 阅读 ·
0 评论