Big Transfer (BiT)论文阅读笔记

本文介绍了一种名为BiT的迁移学习方法,通过大规模数据集预训练的模型在各种图像分类任务上表现出良好的泛化能力。BiT采用ResNet152x4作为默认模型,并在不同规模的数据集上进行了验证。

这篇论文讲的是迁移学习在图像分类任务中的应用,作者强调这是一种通用型的迁移学习,也就是说这种方法不会为特定的数据集做特殊的处理,不同等级的预训练模型在往其他数据集上迁移时均采用相同的处理的方法,以此来证明BiT这种方法的普适性。

方法

上游预训练模型

上游预训练的模型规模体现在训练数据的大小,而不是模型的大小。作者试验了几种模型,默认采用ResNet152x4。论文中按照数据的大小,分别训练的BiT-S、BiT-M和BiT-L三种规模的预训练模型,分别对应的数据集是ILSVRC-2012(1.3M)、ImageNet-21K(14M)和JFT(300M)。

预训练模型采用了Group Normalization和Weight Standardization。作者给出了不使用Batch Normalization的两个理由:1. 训练模型会使用分布式,使用BN的话无法利用到大Batch Size的优势,因为不同卡之间没有同步;2. BN需要更新运行中的数据,不适合用于任务迁移。

迁移到下游任务

训练好上游网络后,需要把网络fine-tune到下游任务中,论文采用了一种叫做BiT-HyperRule的启发式方法去选择和调整几个重要的训练超参——训练周期长度、数据分辨率和是否使用MixUp数据增强。这种方法是通用的,只会在某些不同情况下做一下区分,调整的方法如下:

  1. 数据分辨率。小于 96 × 96 96\times96 96×96的分辨率,先将图片resize到 160 × 160 160\times160 <
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值