Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce 组会PPT记录

本文链接：https://blog.youkuaiyun.com/buyaotutou/article/details/142775396

在这里插入图片描述
老师同学们大家好，讲这篇论文需要先了解下注意力机制，他就是在处理信息的时候，我们将注意力放在需要关注的信息上，对于其他无关的外部信息进行过滤。我们第一眼看到了这张图，我们会首先看有一台车，这就是个不随意线索，没有随着我们的意识，是下意识的行为，然后我们发现车之后，才会去想这个车在什么环境中，这就是个随意线索，是我们有意识去主导的事情，就是我们有意识的去观测我们想要的东西。
在这里插入图片描述

在注意力机制中，我们把随意线索称为查询，query，简称为Q，不随意线索为键，Key，简称为K，然后每一个键都对应一个值成对出现，值，value，简称为V。我们希望通过注意力机制来有偏向性的选择值。比如Q是代表猴子的一个向量，那么有个Key是代表香蕉的向量，那么很有可能这个Q和K的注意力评分函数的结果就会高，注意力权重就会高，然后我们就会选择香蕉这个Key对应的值，可能是香蕉的英文或者其他什么。
在这里插入图片描述
然后经典的里程碑式的模型，transformer，是论文Attention Is ALL You Need的模型，提出了自注意力如图所示，首先有T个token，被嵌入到潜空间，然后设置三个矩阵来对嵌入的向量进行空间变换，生成Q，K，V，然后Q与K进行点成，然后除以根号下D，为了减小过大方差。比如输入猴子喜欢吃香蕉，那么输入第一个词是猴子，他和第二个词香蕉的点积很大，然后也就是紫色框的第一行第二列的值很大，那么他再乘以V的时候，会把香蕉那一行的特征拿来的很多放入到最后的输出中，同时最终的输出向量会包含与输入 token 相关的上下文信息，能够捕捉到词语之间的关系。，这样最后 $D_{out}$ 就会输出一个和香蕉很相近的词语。
在这里插入图片描述
transfor