
注意力机制
文章平均质量分 92
Cestbo1
这个作者很懒,什么都没留下…
展开
-
Informer:AAAI2021 最佳论文整理
前言本文是在Transformer的基础上进行的改进,首先作者提出Transformer在长时间序列预测中的三个局限性:自注意力的二次计算复杂度O(L2)O(L^2)O(L2)(L表示输入序列的长度)堆叠J层编码器(解码器)后会是内存使用量达到O(JL2)O(JL^2)O(JL2),这限制了模型接收长序列输入的可伸缩性Transformer解码器中step-by-step推断流程,会导致在预测长输出时速度急剧下降Transformer既然是在Transformer的基础上,就先了解下Tran原创 2021-04-14 10:22:38 · 1484 阅读 · 0 评论 -
注意力机制的改进
Multi-Head Attention对于Q和K一般先将降维然后在计算注意力,然后将此操作重复多次(h次)最后将结果拼接即为多头注意力。这里假设降维的Q、K维度是n∗(d/h)n*(d/h)n∗(d/h),点积后为n∗nn*nn∗n,也就是说要用一个2∗n∗(d/h)2*n*(d/h)2∗n∗(d/h)参数量去逼近一个n2n^2n2的参数量,然而2nd/h<<n22nd/h&l...转载 2020-04-28 14:18:44 · 7011 阅读 · 3 评论