转自李宏毅的课程https://www.bilibili.com/video/BV1Wv411h7kN?p=39&vd_source=0f19c2ae28fd0b4f762a0aaaff793a64
不一定用softmax,也有用relu的
下面转换成矩阵
每个column做softmax
总结下来就是
两个head的例子
此外还要注意positional encoding
attention
于 2022-06-18 02:33:36 首次发布
转自李宏毅的课程https://www.bilibili.com/video/BV1Wv411h7kN?p=39&vd_source=0f19c2ae28fd0b4f762a0aaaff793a64
不一定用softmax,也有用relu的
下面转换成矩阵
每个column做softmax
总结下来就是
两个head的例子
此外还要注意positional encoding