Attention is all you need论文中的实验分析部分罗列了self-attention和rnn的复杂度对比,特此记录一下自己对二者复杂度的分析。
注意:n表示序列长度,d表示向量维度。
1、self-attention的复杂度为O(n2⋅d)O(n^{2} \cdot d)O(n2⋅d),其来源自self-attention计算公式:
Attention(Q,K,V)=Softmax(QKTdk)VAttention(Q,K,V)=Softmax(\frac{QK^{T}}{\sqrt{d_{k}}})VAttention(Q,K,V)=Softmax(dkQKT)V
其中,Q、K、V∈Rn×dQ、K、V\in \mathbb{R}^{n \times d}Q、K、V∈

本文详细比较了Self-Attention在Attention机制中,由于矩阵运算导致的O(n^2d)复杂度,与RNN中因递归结构带来的O(nd^2)复杂度。重点展示了两者在处理序列数据时效率的差异。

最低0.47元/天 解锁文章
3145

被折叠的 条评论
为什么被折叠?



