
Transformer
文章平均质量分 96
AcceptGo
Money也许是我的兴趣!
展开
-
Hugging Face(1)——Transformer Models
HuggingFace学习记录原创 2022-07-08 03:04:24 · 1393 阅读 · 1 评论 -
VL-BEiT:Generative Vision-Language Pretraining(生成Vision-Language预训练)
引入一个称之为VL-BEiT的vision-language基础模型,其是通过生成预训练学习到的双向多模态Transformer。这里使用一个共享Transformer对单模态和多模态数据进行masked prediction(掩盖预测)。具体地,对image-text pairs执行masked vision-language modeling,对texts执行masked language modeling,对image执行masked image modeling。......原创 2022-06-07 15:52:40 · 2270 阅读 · 1 评论 -
Vision Transformer(ViT)——PyTorch实现
架构如下:输入图片分割为16×1616 \times 1616×16的,并做操作。然后在前面添加,并和做和,之和作为全连接层的输入。生成的张量首先传递到标准,然后传递到,流程就此结束了。我们从上至下逐块实现。首先,我们需要一张图片:然后,对图片进行处理:第一步执行如下图的操作:把分割为,然后将其。这一部分对应论文中如下内容:通过完成:接着,使用标准线性层进行映射:这里通过创建类,保证代码质量和可读性。这里需要注意的是,原始作者使用的是而不是来提高性能。者通过使用和等价于。直观上,卷原创 2022-06-04 22:40:20 · 3238 阅读 · 1 评论 -
BEIT: BERT Pre-Training of Image Transformers(图像Transformer的BERT预训练)
文章目录摘要Introduction方法2.1 图像表示2.1.1 Image Patch(图像块)2.1.2 Visual Token2.2 Backbone Network:Image Transformer2.3 预训练BEiT:Masked Image Modeling2.4 From the Perspective of VAE(从VAE视角进行解释)2.5 预训练设置2.6 Fine-Tuning BEiT on Downstream Vision Tasks(下游任务微调)3 实验3.1 图像原创 2022-06-01 22:48:15 · 3046 阅读 · 1 评论 -
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale——ViT
论文:https://arxiv.org/abs/2010.11929Code:https://github.com/google-research/vision_transformertimm:https://github.com/rwightman/pytorch-image-models/blob/master/timm/models/vision_transformer.pyPublish:ICLR2021原创 2022-05-26 12:55:58 · 706 阅读 · 0 评论 -
必读论文(1)——Attention Is All You Need
文章目录Abstract1 Introduction2 Background3 Model Architecture3.1 Encoder and Decoder Stacks3.2 Attention3.2.1 Scaled Dot-Product Attention3.2.2 Multi-Head Attention3.2.3 Applications of Attention in our Model3.3 Position-wise Feed-Forward Networks3.4 Embeddin原创 2022-04-01 13:21:54 · 1441 阅读 · 0 评论