自注意力模块
这个模块接受输入张量 x,大小为 [batch_size, seq_len, embed_dim],其中 batch_size 表示批量大小,seq_len 表示序列长度,embed_dim 表示嵌入维度。模块输出大小相同的张量,表示输入的自注意力表示。将输入张量划分为 num_heads 个头,每个头大小为 head_dim = embed_dim / num_heads。对于每个头,计算注意力分数(点积注意力)并将其归一化为注意力权重。对于每个头,将注意力权重应用于值,然后将每个头的输出合。
原创
2023-03-10 08:58:09 ·
952 阅读 ·
0 评论