
Transformer-Based
文章平均质量分 96
Soonki
这个作者很懒,什么都没留下…
展开
-
BERT:BidirectionalEncoderRepresentations fromTransformers代码及数据解读
由于官网给的是TensorFlow版本的,github也有pytorch版本,但是给出的pytorch的代码是需要根据实际情况进行修改的。原创 2024-08-16 20:04:21 · 953 阅读 · 0 评论 -
Align before Fuse Vision and Language Representation Learning with Momentum Distillation解读
不要被这个名字给唬住了,在深度学习中,知识就是神经网络中的权重和偏置等可学习参数。把一个大的模型,迁移到一个小的模型中,类似剪枝、量化等,不过技术路线不同,功能一致;把多个模型的功能,迁移到一个模型中,相当于一个模型集成了多个模型的能力;数据安全,如果说A公司训练了一个web-scale级别的数据集,但是实际上商用功能只需要部分数据,可以利用知识蒸馏,推出多个模型,避免原始模型数据泄露;原创 2024-07-26 18:14:41 · 874 阅读 · 0 评论 -
Transformer之Swin-Transformer结构解读
很多人说,Swin-Transformer就是另一种Convolution,但是解释得真就是一坨shit,这里我郑重解释一下,这是为什么?首先,Convolution是什么?Convolution是一种矩形区域内参数共享的Linear这么说可能不好理解,那么我们上代码上述代码通过了使用输入数据的维度变换,实现了利用nn.Linear来进行nn.Conv2d的过程,当然,nn.Conv1d甚至nn.Conv3d等也是同样操作。这里我们先记住,后面我们详细解释。原创 2024-07-23 17:29:42 · 883 阅读 · 0 评论 -
Transformer之Vision Transformer结构解读
什么是Transformer呢?就是把符号向量化为Token, 再和位置编码求和或者做阿达玛积,最后送入一定层数的构成的Encoder和Decoder,就完成了Transformer的基础功能。那么,把上述过程,用在图片上面,这就是Vision Transformer,简称ViT。原创 2024-07-21 18:09:44 · 834 阅读 · 0 评论 -
Transformer之Attention的通俗理解
按照输入数据维度分类,Attention可分为普通Attention和Multi-Head Attention。上面是普通的Attention,下面的是Multi-head attention实际上,他就是将输入数据从BNC[B, N, C]BNC变成B×numheadsNCB×numheadsNC,然后再输入到Attention模块中进行注意力计算。那么这么做有什么好处呢?上面说道。原创 2024-07-18 17:52:02 · 829 阅读 · 0 评论 -
Transformer之位置编码的通俗理解
在之前介绍的:两篇文章中,我们介绍了Token被作为一个整体送入Attention中进行计算,这样才能得到各个Token之间的关联。在NLP中,词语的顺序至关重要,比如说"爱做"和"做爱",相同的词语所表达的意思却天差地别,所以编码器会把带有顺序信息的向量一同送入Attention中;在CV中,图像被nn.Conv2d切成一个个小块,然后把小块变成B11C的点,这些点共同构成送入Attention的patch_embedding,虽然对顺序的要求没有那么高,但是也是有一定要求的。原创 2024-07-20 17:57:25 · 1201 阅读 · 0 评论 -
Transformer之Token的通俗理解
首先解释为什么不能用Encoder-Decoder的模型(原因和GAN是相同的),因为输入和输出是相同的,模型在训练中会什么都不做,导致模型崩溃,这样根本无法解析出词向量。这些语言除了统计学规律,是不具备任何数学计算的能力的,所以,需要利用一定的映射方法,将其映射为数学语言,比如:数字或者矩阵。的维度填充,然后刨除部分维度,实现降维,使得编码结果对语义的信息表达不仅限于维度,还可以通过维度的长度表达。总结一下,就是把单词之类的语言,从one-hot形式的高维表达,通过矩阵变换实现降维,原创 2024-07-18 17:42:44 · 3462 阅读 · 0 评论