这篇论文讲的是迁移学习在图像分类任务中的应用,作者强调这是一种通用型的迁移学习,也就是说这种方法不会为特定的数据集做特殊的处理,不同等级的预训练模型在往其他数据集上迁移时均采用相同的处理的方法,以此来证明BiT这种方法的普适性。
方法
上游预训练模型
上游预训练的模型规模体现在训练数据的大小,而不是模型的大小。作者试验了几种模型,默认采用ResNet152x4。论文中按照数据的大小,分别训练的BiT-S、BiT-M和BiT-L三种规模的预训练模型,分别对应的数据集是ILSVRC-2012(1.3M)、ImageNet-21K(14M)和JFT(300M)。
预训练模型采用了Group Normalization和Weight Standardization。作者给出了不使用Batch Normalization的两个理由:1. 训练模型会使用分布式,使用BN的话无法利用到大Batch Size的优势,因为不同卡之间没有同步;2. BN需要更新运行中的数据,不适合用于任务迁移。
迁移到下游任务
训练好上游网络后,需要把网络fine-tune到下游任务中,论文采用了一种叫做BiT-HyperRule的启发式方法去选择和调整几个重要的训练超参——训练周期长度、数据分辨率和是否使用MixUp数据增强。这种方法是通用的,只会在某些不同情况下做一下区分,调整的方法如下:
- 数据分辨率。小于 96 × 96 96\times96 96×96的分辨率,先将图片resize到 160 × 160 160\times160 <

本文介绍了一种名为BiT的迁移学习方法,通过大规模数据集预训练的模型在各种图像分类任务上表现出良好的泛化能力。BiT采用ResNet152x4作为默认模型,并在不同规模的数据集上进行了验证。
最低0.47元/天 解锁文章
1014

被折叠的 条评论
为什么被折叠?



