图像语义提取方法综述
1. 基于本体的图像查询
在图像语义提取领域,有研究者利用本体进行图像查询。例如,Town和Sinclair使用可扩展的本体来支持基于语言的图像集合查询。他们提出的查询语言OQUEL具有基于提取的图像特征和对应分割图像区域的中间层内容构建的通用基础词汇表。图像数据和概念之间的映射通过监督机器学习技术实现,具体使用了多层感知器(MLP)和径向基函数(RBF)网络,并且对其拓扑结构进行了优化,以针对每个特定视觉类别实现最佳泛化性能。
操作步骤如下:
1. 提取图像特征和中间层内容,构建通用基础词汇表。
2. 使用监督机器学习技术(MLP和RBF网络)进行图像数据和概念的映射。
3. 优化网络拓扑结构,以提高泛化性能。
2. 分割与识别交互中的显式/隐式知识
解决语义提取问题的方法可分为自下而上使用隐式知识和自上而下使用显式知识两类。下面将讨论结合自下而上和自上而下方法的技术,即图像分割和识别阶段的交互。
2.1 早期的交互研究
2004年的一项研究尝试在不进行初始分割步骤的情况下,通过对象识别实现前景 - 背景分割。具体操作步骤如下:
1. 使用Harris兴趣点检测器提取25x25像素的图像块。
2. 基于归一化灰度相关性(NGC)进行聚合聚类,得到视觉词汇表,其中图像块的聚类对应码本条目。
3. 不直接使用码本训练分类器,而是采用概率投票方案。对于测试图像,提取图像块并与码本匹配,激活码本条目。
4. 存储每个激活的码本条目相对于对象中心的位置,并在概率框架下为对象中心的可能位置投票。
5. 通过采样对象周围的所