Attention、self-attention机制理解
Attention原理理解
个人理解假定源文档source,其中的每一个词为value,并且给每一个词进行编号key。query暂时理解为需求,用来预测相关的query。
;解码时,根据前一时刻的解码状态,即yi-1,计算出来一组权重(a1,a2,…an),这组权重决定了在当前的解码时刻,(h1,h2,h3,…hn)分别对解码的贡献。