用于图像检索的语义判别投影技术解析
1 引言
随着数字成像技术的发展和互联网的普及,每天都会产生大量的图像数据。如何有效管理这些图像的视觉内容成为了一项挑战。基于内容的图像检索(CBIR)因此受到了广泛的研究关注,但目前仍存在一些待解决的问题。
1.1 现存问题
- 高维特征空间问题 :从图像中提取的视觉特征,如颜色、形状、纹理等,通常构成高维特征空间,其维度从几十到数十万不等。传统机器学习方法在如此高维的特征空间中学习效果不佳,这就是著名的维度灾难问题。
- 语义鸿沟问题 :CBIR中使用的低层次图像特征往往只是对图像的视觉描述,与高层次的语义概念之间缺乏直接联系,即存在所谓的语义鸿沟。
1.2 现有解决方法及局限性
为了缓解这些问题,越来越多的研究关注于降维技术。一些流形学习算法,如ISOMAP、Locally Linear Embedding(LLE)和Laplacian eigenmaps,能够发现训练数据的内在结构并保留其局部或全局属性。然而,这些算法是无监督的,并且局限于非线性映射,难以将整个数据空间映射到低维空间。
Locality Preserving Projections(LPP)和Local Discriminant Embedding(LDE)是对非线性学习方法的扩展,它们受Laplacian eigenmaps的启发。但LPP和LDE在发现内在结构时仅使用一个邻域图,LLE未利用标签信息,LDE仅使不同类别的邻域图像保持距离。此外,LPP和LDE需要计算逆矩阵,会遇到奇
语义判别投影在图像检索中的应用
超级会员免费看
订阅专栏 解锁全文
44

被折叠的 条评论
为什么被折叠?



