基于迁移学习的场景分类研究
1. 引言
场景图像分类是一项具有挑战性的任务,因为不同类别的场景图像往往具有相似的图像统计特征。随着数字视频和图像的大量产生,对这些数据进行语义内容分析的需求日益增长。然而,语义图像内容分析面临着高层语义表示与底层视觉特征之间的差异这一挑战。
人类大脑能够理解场景图像的高层语义表示,其结构为具有递增复杂度的数据处理层次。受人类大脑架构的启发,卷积神经网络(CNN)应运而生。当CNN输入大量数据时,它能够产生有用的输入图像的高层表示。
在相关研究中,在大型数据集上训练的CNN常被用作特征提取器,为输入图像提供高层表示。这些特征向量被用作分类器的输入,这种训练分类器的方法被称为迁移学习。由于实验使用的Oliva Torralba(OT)场景数据集图像数量有限,迁移学习成为可行的选择。同时,少量图像容易导致过拟合,难以获得良好的性能。与传统特征工程技术生成的特征相比,CNN特征在迁移和非迁移分类中表现更优,主要用作全局描述符,从全连接层提取的fc7特征具有较强的泛化和语义描述能力。
本研究提出使用预训练的Places CNN模型,该模型基于AlexNet和VggNet等流行的CNN架构,在以场景为中心的图像上进行训练。由于从预训练模型中提取的每个图像的特征向量是高维向量,可使用主成分分析(PCA)进行降维,以减少计算时间和复杂度。此外,还将RGB图像转换为RGB2Gray、SVD - 去色和修改后的SVD - 去色等单平面灰度图像,分析这些单平面图像上训练的模型的性能,并与RGB图像上训练的模型进行比较。
2. 方法
2.1 图像去色
将OT数据集的图像转换为RGB2G
超级会员免费看
订阅专栏 解锁全文
2935

被折叠的 条评论
为什么被折叠?



