
kaiming
文章平均质量分 57
一只蓝鲸鱼
香港中文大学大模型方向博士在读
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kaiming He论文阅读笔记三——Simple Siamese Representation Learning
预测MLP头h对一个视图的输出进行转换,并与另一个视图进行匹配,该模型使两边的余弦相似度最大化。如MoCo就是一种Siamese网络中,MoCo维护一个负样本队列,并将其中一个分支变为动量编码器,以提高队列的一致性。SimSiam直接共享两个分支之间的权值,所以它也可以被认为是“没有负对的SimCLR”。)是应用于两个或多个输入的权重共享神经网络,它使用相同的权重,同时在两个不同的输入向量上协同工作以计算可比较的输出向量。通常其中一个输出向量是预先计算的,从而形成一个基线,与另一个输出向量进行比较。...原创 2022-08-05 19:42:25 · 1012 阅读 · 1 评论 -
Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection
而与典型的ConvNets不同,原始的ViT是一个普通的、非层次结构的架构,它在整个过程中维护一个单尺度的特征图。在分层骨干中,上采样通常借助于侧连接;在普通的ViT主干中,作者根据经验发现这是没有必要的,简单的反卷积就足够了。在作者设计的结构中,只使用来自backbone的最后一个特征映射,它应该具有最强的特性。具体来说,使用默认的规模为1/16(步幅=16)的ViT特征映射,我们使用步幅{2,1,1/2,1/4}的卷积产生了规模{1/32,1/16,1/8,1/4}的特征映射,其中步幅分数表示反卷积。.原创 2022-08-05 16:55:32 · 1219 阅读 · 0 评论 -
Kaiming He 论文阅读笔记一——Masked Autoencoders
第二个亮点是使用了非对称的encoder-decoder结构,encoder仅输入可见的图像子集(不输入masked token),配备一个轻量级的decoder,decoder的输入仍然保持全部图像。如图所示为Masked Autoencoder的结构,建立在BEIT的基础上,BEIT通过将输入图像分割为Patch,mask其中部分子图像之后,线性链接并将得到的token输入给encoder(vision transformer)。实验表明更大的mask比可以取得更好的效果。...原创 2022-08-05 14:44:57 · 1240 阅读 · 0 评论