预训练模型
1.图像领域预训练模型
ImageNet
2009年由李飞飞团队邓家等人提出,并迅速发展成为CV领域最知名的比赛ILSVRC,从2010年举办第一届,到2017年李飞飞宣布最后一届,前后总共举办8年,这八年间先后在这个比赛中涌现了一大批推动AI领域尤其是CV领域发展的算法和模型
ILSVRC
2012年Hinton团队提出了AlexNet,超过当时第二名效果41%,一下子引爆了AI领域,因此2012年也被成为"深度学习元年"
图像中的预训练
模型的较低层学习到的主要是物体的边缘,往高层后逐步就变成了成型的物体了。一般来说,物体的边缘和纹路都是一些比较通用的视觉特征,因此将这一部分对应的模型参数用来初始化task-specific模型中的参数,意味着模型就不要再从头开始学习这些特征,从而大大提升了训练的效率和性能。
预训练在图像的应用
1.训练数据少,不足以训练复杂网络
2.加快训练速度
3.参数初始化,找到好的初始点,有利于优化
2.NLP领域预训练模型
类似于图像领域中的ImageNet上预训练的各种模型,来做一个NLP中预训练好的Encoder模块,拿来直接利用。需要思考如何设计一些更通用的可以迁移利用的东西。
固定词向量的缺陷
1.一词多义,上下文相关
2.未登录词处理,新词发现
ELMO
根据当前上下文对Word Embedding 动态