
CV
文章平均质量分 87
chad_lee
看论文的
展开
-
【视觉预训练】《BEIT: BERT Pre-Training of Image Transformers》 ICLR 2022
核心思想是:让 BEIT 看很多的图片,随机盖住一些 image patches,让 BEIT 模型预测盖住的patches是什么,不断计算预测的 patches 与真实的 patches 之间的差异,利用它作为 loss 进行反向传播更新参数,来达到 Self-Supervised Learning 的效果。BEIT 也是在做类似的事情,即能够把一个输入的 image 进行编码,得到一堆 vectors,并且这些个 vectors 也结合了 image 的上下文。具体而言,作者训练了一个。原创 2022-09-30 11:00:57 · 1512 阅读 · 1 评论 -
【对比学习】Understanding the Behaviour of Contrastive Loss (CVPR‘21)
即损失函数对所有负样本的相似度的梯度是相等的。越大,负样本的梯度项也越大,也就给予了负样本更大远离该样本的梯度。(可以理解为focalloss,越难梯度越大)。趋近于无穷大时,ContrastiveLoss几乎退化成SimpleLoss,对所有负样本的权重相同。但是满足这一条件的损失函数很多,比如一个最简单的函数。该损失函数要求第i个样本和它另一个扩增的(正)样本之间的相似度。之间尽可能大,而与其它实例(负样本)之间的相似度。设置为一个小数字,这篇文章从分析温度参数。的分母是相同的,所以。...原创 2022-07-21 00:07:46 · 559 阅读 · 0 评论 -
【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
对于一对video-Text样本,text输入QueryTextEncoder和KeyTextEncoder,video抽帧,然后拉成序列再输入QueryVideoEncoder和KeyTextEncoder。所以一共有4个Encoder模型获得输入,分别有两个模型(Query-Key)的输入是相同的,Key模型是由Query模型动量更新的。快手和北大的工作,视频文本检索任务,即让视频和文本对齐,已经用于快手的各个场景中。然后又在底层和顶层计算loss,又翻倍,因此一共有4个loss。...原创 2022-07-21 00:03:58 · 685 阅读 · 0 评论 -
【meta-learning】经典工作MAML和Reptile(demo理解meta-learning机制)
Meta LearningMAML ICML’17MAML和模型结构、任务无关,唯一的要求只是模型有参数就可以。MAML产生一个权重的初始化,其他模型再使用少量的样本就能在其基础上进行fine-tuning。因此MAML的输入和作用和Pre-train是相同的。算法MAML可以用这张图来说清楚,左图是算法流程中∣Ti∣=1|\mathcal{T}_{i}|=1∣Ti∣=1的情况。首先,模型有一个初始化参数θ\thetaθ:取一个tasks Ti∼p(T)\mathcal{T}_{i} \原创 2022-01-21 15:58:24 · 1437 阅读 · 7 评论 -
【GAN】《ENERGY-BASED GENERATIVE ADVERSARIAL NETWORKS》 ICLR‘17
《ENERGY-BASED GENERATIVE ADVERSARIAL NETWORKS》先介绍EBGAN,再详细解读为什么这样做。Auto-encoder DiscriminatorEnergy-based GAN和普通的GAN的区别就是把Discriminator的网络架构从一个二分类的分类器改成了一个auto-encoder,然后用auto-encoder的reconstruction error做为鉴别器的输出。模型图如下所示这样鉴别器的输入和普通的GAN一样,还是一张图片,输出还是.原创 2022-01-22 13:28:27 · 562 阅读 · 0 评论 -
【GAN】W-GAN ICLR‘17, ICML‘17
W-GAN和GAN相比只改了四点:判别器最后一层去掉sigmoid生成器和判别器的loss不取log每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c不要用基于动量的优化算法(包括momentum和Adam),推荐RMSProp,SGD也行GAN的问题《Towards Principled Methods for Training Generative Adversarial Networks》ICLR’17W-GAN的作者先在这篇文章中通过大量的数学公式推导分析出了GA原创 2022-01-22 13:28:15 · 389 阅读 · 0 评论 -
【GAN】GAN基础入门与DCGAN
Basic Idea of GAN以图片生成为例,假设有两个网络,G(Generator)和D(Discriminator):G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。训练目标训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽原创 2022-01-22 13:28:03 · 586 阅读 · 0 评论 -
【分布外检测】ODIN ICLR‘18
《Enhancing the reliability of out-of-distribution image detection in neural networks.》 ICLR’18OOD经典baseline。ODIN 的想法很简单,既然模型对ID 和 OOD 样本输出的 softmax 预测概率分布不同,那么可不可以让它们分布差异变得更大呢?这样便可以更容易的检测 OOD 样本。本文提出两种方法辅助:Temperature scaling和Input Preprocessing:相比于 .原创 2022-01-22 13:27:49 · 762 阅读 · 0 评论 -
【分布外检测】《Self-Supervised Learning for Generalizable Out-of-Distribution Detection》 AAAI‘20
这篇文章把自监督学习用在OOD检测上。训练过程分两步,在有标签的ID数据上有监督学习,在无标签的OOD数据上自监督学习,目的是在最小的模型改动下让模型学会“拒绝”为OOD数据分类。额外节点+两步训练为模型的最后一层添加额外的节点,使其包含kkk个拒绝分类,即模型从原来的nnn分类模型变为n+kn+kn+k分类模型。训练算法如下所示:为了更直观的说明,我画了一个示意图:在step 1时,输入是ID数据,训练的目标函数是正常的关于数据标签的交叉熵损失函数。在step 2时,输入数据里包含ID数据原创 2022-01-22 13:27:33 · 598 阅读 · 0 评论 -
【分布外检测】《Learning Confidence for Out-of-Distribution Detection in Neural Networks》 Arxiv‘18
这篇文章有些像“learning loss”那篇一样,一股“end to end DL system solve everything”的味道。我需要一个confidence来评估一个样本是否为OOD数据,那我的神经网络模型就输出一个confidence指标来预测当前样本。文章虽然没有发表在会议,但是被引量很高。Motivation作者用一个例子来引入设计模型的动机。假设学生在考试中要回答一系列问题获得分数,途中学生可以选择请求提示获得帮助,但是请求提示会受到小惩罚。那么这个时候学生应该在有信心的题目原创 2022-01-22 13:27:17 · 788 阅读 · 0 评论 -
【GAN】SentiGAN IJCAI’18 Distinguished Paper
《SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks》最后以GAN的应用结尾,GAN最常用于图像上,所以尝试了解一下GAN在文本生成上的应用。解决什么问题本文的目标是利用 GAN 生成具有高质量、多样性的情感文本。难点是:1、文本的离散特性使采样步骤是不可微的,图像像素可以+0.001,文本没办法。之前有工作如seqGAN把这个问题转换为判别器引导生成器的强化学习。2、mode collapse,生成的文.原创 2022-01-22 13:28:47 · 350 阅读 · 0 评论 -
【GAN】SAGAN ICML‘19
《Self-Attention Generative Adversarial Networks》ICML’19,Goodfellow署名。深度卷积网络能够提升 GANs 生成高分辨率图片的细节。这篇文章为了解决在生成大范围相关(Long-range dependency)的图片区域时,CNN局部感受野的影响,因此在DCGAN的基础上引入了Self-attention。解决什么问题在生成例如人脸图片时,细节是非常重要的,比如左右眼,只要左右眼有一点点不对称,生成的人脸就会特别不真实,因此左右眼的区域就是原创 2022-01-22 13:28:38 · 669 阅读 · 2 评论