深度学习中的迁移学习与目标检测技术
1. 卷积神经网络的知识迁移
在深度学习中,将一个模型的知识迁移到另一个模型是可行的。人工神经网络相较于人类大脑,具有易于存储和复制的优势,这使得知识迁移操作变得便利。卷积神经网络(CNN)的专业知识体现在其训练后参数所取的值,这些值可以轻松恢复并转移到相似的网络中。
CNN的迁移学习主要是复用在丰富数据集上训练好的高性能网络的全部或部分架构和权重,以实例化一个用于不同任务的新模型。新模型在经过这种条件实例化后,可以进行微调,即在新任务/领域的可用数据上进一步训练。
网络的前几层倾向于提取低级特征,如线条、边缘或颜色梯度,而最后的卷积层则对更复杂的概念做出反应,如特定的形状和图案。对于分类任务,最后的池化层和/或全连接层会处理这些高级特征图(通常称为瓶颈特征)以进行类别预测。
基于这种典型设置和相关观察,产生了各种迁移学习策略。移除了最终预测层的预训练CNN开始被用作高效的特征提取器。当新任务与这些提取器的训练任务足够相似时,它们可以直接用于输出相关特征。这些特征随后可以由一两个新的密集层处理,这些密集层经过训练以输出与任务相关的预测。为了保留提取特征的质量,特征提取器的层在训练阶段通常会被冻结,即其参数在梯度下降过程中不会更新。而当任务/领域不太相似时,特征提取器的一些最后层或全部层会被微调,即在任务数据上与新的预测层一起训练。
2. 不同场景下的迁移学习用例
不同的任务场景和训练数据量会影响迁移学习策略的选择,具体如下:
|任务场景|训练数据量|迁移学习策略|
| ---- | ---- | ---- |
|相似任务|有限|先在更大的相似数据集上预
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



