-江户川--优快云博客

原创「ViT」An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

对有更高解析度的下游任务图片使用2D interpolation：下游任务具有更高的 resolution 时候通常表现更好，而ViT保持与pretrained model相同大小的 patch size 时，sequence len肯定会变长，那么pos embedding失效，需要做2D 插入.Bert 里 [CLS] 加入sentence embedding 的作用是这个符号学到的表征能够表示文本的语义信息，类似的，图片处理中也加入 [CLS]，本质是一系列被切割的小图片展平，所以这个序列一共包含。.

2022-08-16 00:15:00 207

原创「BEiT」BERT Pre-Training of Image Transformers

BEiT 提出了一种自监督学习图像表征的方法，核心思想是预训练任务实现 BEiT encoder 分类预测 mask patch 的 token。思路迁移自 BERT 的 encoder 结构，图像输入处理一方面将图像转为 patch 序列（ViT) ，另一方面用固定范围的 token 代替图片像素。Stage2: 256 BPE-encoded 的文本 tokens 与 1024个图像 tokens 结合作为输入，训练一个自回归 transformer，刻画文本和图像 token 的联合概率分布。...

2022-08-15 15:32:57 986

weixin_43092343的博客

原创「ViT」An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

原创「BEiT」BERT Pre-Training of Image Transformers

原创 Tensorflow string tf.print和编码问题

原创自监督｜「CoCLR」视频自监督对比学习笔记

原创图文多模态公开数据集归纳（图文情感分类、图文检索）｜有中英文文本、含下载地址

原创自监督｜「SimCLR」对比学习阅读笔记

原创自监督｜「NNCLR」阅读笔记

原创 tensorflow 如何计算向量余弦相似 cosine similarity

原创自监督｜「ResNet v1」阅读笔记

原创数理统计｜参数估计

原创三大抽样分布

空空如也

空空如也