主动迁移学习:高级主动学习策略解析
1. 主动迁移学习用于不确定性采样
1.1 复杂架构扩展
将主动迁移学习扩展到更复杂的架构(如图 5.8 所示),仅需额外几行代码。新模型预测“正确”或“错误”时,需要一个隐藏层,并且该新模型会从多个隐藏层提取特征。可以将不同层的向量相互拼接,这个扁平化的向量就成为新模型的特征。
1.2 特征提取与表示
如果你熟悉自然语言处理(NLP)的上下文模型或计算机视觉的卷积模型,这个过程并不陌生。实际上,这是从网络的几个部分提取神经元的激活值,并将其展平为一个长特征向量。得到的向量通常被称为表示,因为你是使用一个模型的神经元在另一个模型中表示特征。
1.3 模型复杂度考量
虽然可以构建更复杂的模型,但这并不意味着应该这样做。如果没有大量的验证数据,更复杂的模型更容易过拟合。相比之下,仅训练一个新的输出神经元更容易避免训练误差。在构建模型时,应根据数据量和二元预测任务,凭经验判断模型所需的复杂度。
1.4 主动迁移学习的优缺点
优点
- 基于当前信息状态 :重用隐藏层,直接基于模型的当前信息状态构建模型。
- 少量标注数据有效 :尤其是仅重新训练最后一层时,即使验证数据不多,模型也能有效工作。
- 训练速度快 :特别是仅重新训练最后一层时。
- 适用于多种架构 :可用于文档或图像级别的标签预测、图像
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



