Attention 是一种通用的带权池化方法,输入由两部分构成:询问(query)和键值对(key-value pairs)。


不同的attetion layer的区别在于score函数的选择,两种常用的注意层 Dot-product Attention 和 Multilayer Perceptron Attention
点积注意力

class DotProductAttention(nn.Module):
def __init__(self, dropout, **kwargs):
super(DotProductAttention, self).__init__(**kwargs)
self.dropout = nn.Dropout(dropout)
# query: (batch_size, #queries, d)
# key: (batch_size, #kv_pairs, d)
# va

本文介绍了PyTorch中两种常见的注意力机制——点积注意力和多层感知机注意力,详细阐述了它们的工作原理和应用场景。
最低0.47元/天 解锁文章
11万+

被折叠的 条评论
为什么被折叠?



