
结构复现
使用Tensorflow1.x复现常见结构。
小汣结
博客存放代码注解;
github存放代码;
blibli存放视频;
展开
-
Tensorflow 实现常见mask
一、self-attention中的mask 1.1 attention的mask. 1.1.1 举例 q_mask = [1, 1, 1, 1, 0, 0] # seq_len. 其中1表示有效, 0表示无效. # self-attention的score为 [seq_len, seq_len] q_mask = tf.expand_dims(q_mask, axis=-1) # [seq_len, 1] k_mask = tf.reshape(q_mask, [1, -1]) # [1, s原创 2021-04-15 16:35:41 · 1775 阅读 · 0 评论 -
Tensorflow Attention——自实现
一、最简单的attention 1.1 结论 公式如下: S = softmax(QKT) C = SV 1.2 代码实现 下面是Seq2Seq Attention的简易版。 def attention_layer(query, key,value): query = tf.expand_dims(query, axis=1) # [bs, 1, hs] score = tf.nn.softmax(tf.matmul(query, key, transpose_b=True), axis=-1原创 2021-04-02 15:35:03 · 1174 阅读 · 0 评论