一、基本概念
迁移学习(Transfer Learning)是一种机器学习方法,旨在将从一个任务中学到的/已有的知识应用到另一个相关任务中。与传统的机器学习方法不同,迁移学习不需要从头开始训练模型,而是利用(迁移)已有知识来加速新任务的学习过程。换句话说,迁移学习放宽了传统机器学习中的两个基本假设,即训练数据和测试数据必须同分布,以及必须有足够数量的标注数据来训练模型,这使得它在处理数据稀缺和计算资源有限等问题时,具有显著优势。
二、常见策略
这里,笔者列举几个日常工作中遇到的迁移学习策略。在此之前,我们需要先了解下几个基本概念:
- 源域(Source Domain):源域是指迁移学习中知识的来源域,它包含了用于训练模型的初始数据和任务,通常具有丰富的标注数据。
- 目标域(Target Domain):目标域是指迁移学习中知识的应用域,它包含了需要迁移学习模型进行预测或分类的数据和任务,通常数据量较少,标注数据稀缺。
在迁移学习中,源域和目标域是两个关键概念,它们分别代表了知识迁移的起点和终点。在迁移学习中,源域和目标域之间的关系可以有多种形式:
- 相同特征空间和标签空间:源域和目标域具有相同的特征空间和标签空间,但数据分布不同,这种情况常见于跨领域迁移学习(Domain Adaptation),又称域适应。例如,在不同的天气条件下拍摄的交通标志图像数据集,源域(例如是晴天)和