一、 背景介绍
在现有的机器学习,深度学习和数据挖掘的任务中,通常会假设train和test所使用的数据服从相同的分布,有着相同的特征空间,但在现实应用中,这种理想状态往往难以达到:
⑴带标记的训练样本数量有限。比如处理A领域的分类问题时,缺少足够的训练样本。同时,与A领域相关的B领域却有着大量的训练样本,但B领域与A领域处于不同的特征空间或样本服从不同的分布。
⑵数据分布会因时间,地点,或其他因素发生改变,随着动态因素的变化,数据分布会发生变化,或以前收集的数据已经过时,需要重新收集数据,重新建模。
无论是大量样本标记,还是模型的重建都会耗费大量的财力人力,在这种情况下,知识迁移是一个不错的选择,即把B领域中的知识迁移到A领域中来,提高A领域的分类效果。
感觉就是一个老师-学生的过程,学生学习老师已学的知识,而学生之后的学习领域可能不和老师相同,但却应用到之前学到的知识,让旧知识能在新的领域中应用好。
二、 迁移学习的方式
迁移学习中需要回答的三个问题
⑴迁移什么?源域的哪些知识是需要被迁移的
⑵何时迁移?这个工作是考虑到源域和目标域是否相似,如果不相似的两个域,强行进行迁移学习会出现负迁移的情况(即使用目标域本身的数据进行训练的效果比迁移学习的效果好)。
⑶如何迁移
⑴⑶中涉及到四种方法,基于实例的迁移,基于特征表示的迁移,基于参数的迁移,基于相关性的迁移。
①基于实例的迁移
主要思想就是在目标领域的训练中,虽然源数据域不能直接使用,但可以从中挑选部分,用于目标领域的学习。实例重加权和重要性抽样是这类方法的两个重要技术。
②基于特征表示迁移
主要思想是寻找一个“好的”特征表示,最小化域间差异和分类回归的误差,期望

迁移学习是一种在不同但相关任务间共享知识的技术,尤其在数据稀缺或分布变化时能有效提升模型性能。它包括归纳学习、直推式迁移学习和无监督迁移学习。常见方法有基于实例、特征表示、参数和相关性的迁移。应用广泛,如机器人学习、舆情分析、推荐系统、计算机视觉和NLP等领域,能解决标注数据稀缺性和非平稳环境下的泛化误差问题。
最低0.47元/天 解锁文章
1063

被折叠的 条评论
为什么被折叠?



