1. 迁移学习
迁移学习是一种学习的思想和模式。迁移学习作为机器学习的一个重要分支,侧重于将已经学习过
的知识迁移应用于新的问题中。迁移学习的核心问题是,找到新问题和原问题之间的相似性,才可
以顺利地实现知识的迁移。定义:迁移学习,是指利用数据、任务、或模型之间的相似性,将在旧
领域学习过的模型,应用于新领域的一种学习过程。
迁移学习的原因概括为以下四个方面:大数据与少标注之间的矛盾;大数据与弱计算之间的矛盾;
普适化模型与个性化需求之间的矛盾;特定应用的需求。
1.1 大数据与少标注之间的矛盾
我们正处在一个大数据时代,每天每时,社交网络、智能交通、视频监控、行业物流等,都产生着
海量的图像、文本、语音等各类数据。数据的增多,使得机器学习和深度学习模型可以依赖于如此
海量的数据,持续不断地训练和更新相应的模型,使得模型的性能越来越好,越来越适合特定场景
的应用。然而,这些大数据带来了严重的问题:总是缺乏完善的数据标注。
众所周知,机器学习模型的训练和更新,均依赖于数据的标注。然而,尽管我们可以获取到海量的
数据,这些数据往往是很初级的原始形态,很少有数据被加以正确的人工标注。数据的标注是一个
耗时且昂贵的操作,目前为止,尚未有行之有效的方式来解决这一问题。这给机器学习和深度学习
的模型训练和更新带来了挑战。反过来说,特定的领域,因为没有足够的标定数据用来学习,使得
这些领域一直不能很好的发展。
1.2 大数据与弱计算之间的矛盾
大数据,就需要大设备、强计算能力的设备来进行存储和计算。然而,大数据的大计算能力,是”
有钱人” 才能玩得起的游戏。比如 Google,Facebook,Microsoft,这些巨无霸公司有着雄厚的计
算能力去利用这些数据训练模型。例如,ResNet 需要很长的时间进行训练。Google TPU 也都是
有钱人的才可以用得起的。
绝大多数普通用户是不可能具有这些强计算能力的。这就引发了大数据和弱计算之间的矛盾。在这
种情况下,普通人想要利用这些海量的大数据去训练模型完成自己的任务,基本上不太可能。那么
如何让普通人也能利用这些数据和模型?
1.3 普适化模型与个性化需求之间的矛盾
机器学习的目标是构建一个尽可能通用的模型,使得这个模型对于不同用户、不同设备、不同环
境、不同需求,都可以很好地进行满足。这是我们的美好愿景。这就是要尽可能地提高机器学习模
型的泛化能力,使之适应不同的数据情形。基于这样的愿望,我们构建了多种多样的普适化模型,
来服务于现实应用。然而,这只能是我们竭尽全力想要做的,目前却始终无法彻底解决的问题。人
们的个性化需求五花八门,短期内根本无法用一个通用的模型去满足。比如导航模型,可以定位及
导航所有的路线。但是不