老师同学们大家好,讲这篇论文需要先了解下注意力机制,他就是在处理信息的时候,我们将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤。我们第一眼看到了这张图,我们会首先看有一台车,这就是个不随意线索,没有随着我们的意识,是下意识的行为,然后我们发现车之后,才会去想这个车在什么环境中,这就是个随意线索,是我们有意识去主导的事情,就是我们有意识的去观测我们想要的东西。
在注意力机制中,我们把随意线索称为查询,query,简称为Q,不随意线索为键,Key,简称为K,然后每一个键都对应一个值成对出现,值,value,简称为V。我们希望通过注意力机制来有偏向性的选择值。比如Q是代表猴子的一个向量,那么有个Key是代表香蕉的向量,那么很有可能这个Q和K的注意力评分函数的结果就会高,注意力权重就会高,然后我们就会选择香蕉这个Key对应的值,可能是香蕉的英文或者其他什么。
然后经典的里程碑式的模型,transformer,是论文Attention Is ALL You Need的模型,提出了自注意力如图所示,首先有T个token,被嵌入到潜空间,然后设置三个矩阵来对嵌入的向量进行空间变换,生成Q,K,V,然后Q与K进行点成,然后除以根号下D,为了减小过大方差。比如输入猴子喜欢吃香蕉,那么输入第一个词是猴子,他和第二个词香蕉的点积很大,然后也就是紫色框的第一行第二列的值很大,那么他再乘以V的时候,会把香蕉那一行的特征拿来的很多放入到最后的输出中,同时最终的输出向量会包含与输入 token 相关的上下文信息,能够捕捉到词语之间的关系。,这样最后DoutD_{out}Dout就会输出一个和香蕉很相近的词语。
transfor