Big Transfer (BiT)论文阅读笔记

最新推荐文章于 2025-04-18 00:35:29 发布

原创

最新推荐文章于 2025-04-18 00:35:29 发布 · 3.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#迁移学习 #图像识别 #深度学习

本文介绍了一种名为BiT的迁移学习方法，通过大规模数据集预训练的模型在各种图像分类任务上表现出良好的泛化能力。BiT采用ResNet152x4作为默认模型，并在不同规模的数据集上进行了验证。

这篇论文讲的是迁移学习在图像分类任务中的应用，作者强调这是一种通用型的迁移学习，也就是说这种方法不会为特定的数据集做特殊的处理，不同等级的预训练模型在往其他数据集上迁移时均采用相同的处理的方法，以此来证明BiT这种方法的普适性。

方法

上游预训练模型

上游预训练的模型规模体现在训练数据的大小，而不是模型的大小。作者试验了几种模型，默认采用ResNet152x4。论文中按照数据的大小，分别训练的BiT-S、BiT-M和BiT-L三种规模的预训练模型，分别对应的数据集是ILSVRC-2012（1.3M）、ImageNet-21K（14M）和JFT（300M）。

预训练模型采用了Group Normalization和Weight Standardization。作者给出了不使用Batch Normalization的两个理由：1. 训练模型会使用分布式，使用BN的话无法利用到大Batch Size的优势，因为不同卡之间没有同步；2. BN需要更新运行中的数据，不适合用于任务迁移。

迁移到下游任务

训练好上游网络后，需要把网络fine-tune到下游任务中，论文采用了一种叫做BiT-HyperRule的启发式方法去选择和调整几个重要的训练超参——训练周期长度、数据分辨率和是否使用MixUp数据增强。这种方法是通用的，只会在某些不同情况下做一下区分，调整的方法如下：

数据分辨率。小于 $96\times96$ 的分辨率，先将图片resize到 $160\times160$

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。