ECCV 2020 亮点摘要(下)

本文综述了ECCV 2020会议上关于半监督学习、无监督学习、迁移学习、表征学习及小样本学习的关键研究。文中介绍了几种学习方法,如Big Transfer(BiT)模型,它通过预训练和微调提高视觉表示的通用性和迁移性。此外,探讨了如何利用图像标题进行无监督预训练,提出图像条件化的掩蔽语言建模(ICMLM)来强化图像和文字之间的交互。其他研究包括视频表示学习、图像聚类、小样本图像分类以及通过神经辐射场(NeRF)进行三维场景渲染。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正文字数:8279  阅读时长:12分钟

2020年欧洲计算机视觉会议(ECCV)于8月23日至28日在网上举行,由1360篇论文组成,包括104场orals,160场spotlights以及1096篇posters,共进行有45场workshops和16场tutorials。与近年来的ML和CV会议一样,有时大量的论文可能不胜枚举。

作者 / Yassine

原文链接 / https://yassouali.github.io/ml-blog/eccv2020/

往期阅读:ECCV 2020 亮点摘要(上)

半监督学习,无监督学习,迁移学习,表征学习以及小样本学习

Big Transfer (BiT): General Visual Representation Learning (paper)

(https://arxiv.org/abs/1912.11370)

在本文中,作者重新审视了迁移学习的简单范式:首先在一个大规模标记数据集(例如JFT-300M和ImageNet-21k数据集)上进行预训练,然后对目标任务上的每个训练权重进行精调任务,减少目标任务所需的数据量和优化时间。作者们拟议的迁移学习框架是BiT(大转移),由许多组件组成,包含了大量构建有效模型的必需组件,使其能够借助于大规模数据集学习到通用的、可迁移的特征表达。

在(上游)预训练方面,BiT包括以下内容:

  • 对于非常大的数据集,由于Batch Normalization(BN)在测试结果期间使用训练数据中的统计信息会导致训练/测试差异,在这种情况下,训练损失可以正确优化和回传,但是验证损失非常不稳定。除了BN对批次大小的敏感性外。为了解决这个问题,BiT既使用了Group Norm,又使用了Weight Norm,而不是Batch Norm。

  • 诸如ResNet 50之类的小型模型无法从大规模数据集中受益,因此模型的大小也需要相应地扩大规模,和数据集匹配。

对于(下游)目标任务,BiT建议以下内容:

  • 使用标准SGD优化器,无需层冻结,dropout,L2正规化或任何适应梯度。别忘了把最后的预测层的权重初始化为0。

  • 不用将所有输入缩放为固定大小,例如224。在训练过程中,输入图像会随机调整大小并裁剪为具有随机选择大小的正方形,并随机水平翻转。在测试阶段,图像会被缩放为固定大小,

  • 尽管对于数据量充足的大规模数据集预训练来说,mixup 并没有多大用处,但BiT发现misup正则化对于用于下游任务的中型数据集训练非常有用。


Learning Visual Representations with Caption Annotations

(https://arxiv.org/abs/2008.01392)

在大规模标注的数据集上训练深度模型不仅可以使手头的任务表现良好,还可以使模型学习对于下游任务的有用特征形式。但是,我们是否可以在不使用如此昂贵且细粒度的标注数据的情况下获得类似的特征表达能力呢?本文研究了使用噪声标注(在这种情况下为图像标题)的弱监督预训练。

目标是用有限对图像与说明文字来学习视觉表达,那么,如何制定训练目标以推动图像及其标题之间的有效交互?基于BER模型随机掩盖15% 的输入字符,让模型根据 transformer 模型的编码器输出重建整个句子,该方法也随机对图像的文字说明进行掩码操作。论文提出了图像条件化的掩蔽语言建模(ICMLM),其中利用图像信息来重构其相应说明文字的掩码的字符。为了解决这个问题,作者提出了两种多模架构:(1)ICMLM tfm,使用一个卷积神经网络对原始图像进行编码得到图像特征,接着,经过BERT处理的被掩码的图像说明、原始图像说明以及图像特征被级联起来并通过一个 transformer 编码器,最终输出一个多模嵌入特征用于预估被掩码的字符。(2)首先生成ICMLM att + fc,说明和图像之间的相似度,接着经过一个成对注意力模块来整合图像与文字说明之间的信息。得到的特征会经过池化后再过一个全连接层来预测被掩码的字符。
Memory-augmented Dense Predictive Coding for Video Representation Learning
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值