迁移学习
什么是迁移学习
迁移学习是机器学习领域用于标记数据难获取这一基础问题的重要手段,
将训练好的内容应用到新的任务上被称为迁移学习。
由于这个过程发生在两个领域间,已有的知识和数据也就是被迁移的对象被称为源域,被赋予经验的领域被称为目标域。
迁移学习不是具体的模型,而是解题思路。
核心思想
找到不同任务之间的相关性。不要找相关性不高的数据集(负迁移)。
使用迁移学习的原因
- 目标领域的数据太少,需要标注数据更多的源域的帮助。
- 节约训练时间。
- 为了实现个性化的应用。
常见应用场景
- 语料匮乏的小语种之间的翻译
- 缺乏标注的医疗影像数据识别
- 面向不同领域快速部署对话系统
在大规模数据集上训练好的模型就称作是预训练模型,这种模型通常都具有很好的泛化能力,可以在它的基础上完成各种各样的任务。使用预训练模型的好处就是它可以帮我们去减少训练时间以及计算资源。
学习策略
- 人家训练好的权重参数当做初始化
- 人家训练好的直接拿过来当做我的权重参数,不进行训练
学习策略选择
数据量比较少的时候,一万多不到。数据量越少,越需要借助人家训练好的模型