- 博客(11)
- 收藏
- 关注
原创 「ViT」An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
对有更高解析度的下游任务图片使用2D interpolation:下游任务具有更高的 resolution 时候通常表现更好,而ViT保持与pretrained model相同大小的 patch size 时,sequence len肯定会变长,那么pos embedding失效,需要做2D 插入.Bert 里 [CLS] 加入sentence embedding 的作用是这个符号学到的表征能够表示文本的语义信息,类似的,图片处理中也加入 [CLS],本质是一系列被切割的小图片展平,所以这个序列一共包含。.
2022-08-16 00:15:00
207
原创 「BEiT」BERT Pre-Training of Image Transformers
BEiT 提出了一种自监督学习图像表征的方法,核心思想是预训练任务实现 BEiT encoder 分类预测 mask patch 的 token。思路迁移自 BERT 的 encoder 结构,图像输入处理一方面将图像转为 patch 序列(ViT) ,另一方面用固定范围的 token 代替图片像素。Stage2: 256 BPE-encoded 的文本 tokens 与 1024个图像 tokens 结合作为输入,训练一个自回归 transformer,刻画文本和图像 token 的联合概率分布。...
2022-08-15 15:32:57
986
原创 图文多模态公开数据集归纳(图文情感分类、图文检索)|有中英文文本、含下载地址
图文多模态的公开数据集下载地址汇总~包括图文情感分类、图文分类、图文检索等
2022-03-03 11:27:47
8556
8
原创 自监督|「NNCLR」阅读笔记
NNCLR 采用类似 SimCLR,核心变化在于数据增强得到的一对正样本中的一张去找最近邻、另一张不变,这两者计算 cross entropy
2022-01-24 17:54:07
2960
原创 数理统计|参数估计
前言 学了很久的数理统计,总觉得知识在脑海中没有一个清晰的轮廓,虽然也可以自己通过纸和笔整理,但是,也想要通过新的方式,用文字的方式输出,这一想法已经在我脑海里盘旋了好久了,终于在今天开始落实。
2018-10-10 23:31:28
6355
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人