基于标签转移的非参数场景解析
在计算机视觉领域,场景解析是一个重要的研究方向。本文将介绍一种非参数场景解析系统,其核心是通过标签转移来解析输入图像,而非构建一个全面的目标识别系统。
1. 相关工作
目标识别在过去十年中取得了巨大的发展。早期的工作主要集中在单类建模,如人脸、数字、字符和行人识别,并且在某些情况下,这些问题已基本得到解决。近年来,研究重点转向了多类目标识别。
在创建目标检测系统时,特征描述和提取是第一步。常见的特征描述符包括基于梯度的特征(如SIFT和HOG)、形状上下文和补丁统计等。这些特征描述符可以稀疏或密集地应用于图像。
稀疏关键点表示常用于图像对之间的匹配。由于匹配两组关键点的通用问题是NP难的,因此开发了近似算法来有效计算关键点匹配,以最小化错误率。而密集表示则通过对图像邻域或整个图像中的视觉特征分布进行建模来处理。
目标识别方法可以分为参数方法和非参数方法。参数方法包括学习生成/判别模型,如模板匹配方法。这些方法假设目标大多是刚性的,对变形的适应性较差。为了处理铰接对象,设计了星座模型来将对象建模为部件的集合。非参数方法则依赖于图像检索和匹配,如Video Google系统和一些基于最近邻的系统。
此外,一些工作还考虑了目标检测中的上下文信息,如目标级共现、空间关系和3D场景布局等。
2. 系统概述
非参数场景解析系统的核心思想是通过匹配进行识别。为了解析输入图像,我们将输入图像中的视觉对象与数据库中的图像进行匹配。如果数据库中的图像带有目标类别标签,并且匹配具有语义意义,那么我们可以直接将数据库中图像的标签转移到输入图像上进行解析。
系统的流程包括以下三个算法模块:
-
场景检索
:给定一个查询图像,使用场景检索技术找到一组与查询图像具有相似场景配置(包括对象及其关系)的最近邻。
-
密集场景对齐
:在查询图像和每个检索到的最近邻之间建立密集的场景对应关系。选择匹配分数最高的最近邻作为投票候选者。
-
标签转移
:根据估计的密集对应关系,将投票候选者的注释扭曲到查询图像上。在MRF模型下协调多个标签并施加空间平滑性。
系统使用了两个数据库:LabelMe Outdoor(LMO)数据库和SUN数据库。LMO数据库包含2688张完全注释的图像,主要是户外场景;SUN数据库包含9566张完全注释的图像,涵盖室内和室外场景,LMO是SUN的一个子集。
3. 系统设计
3.1 场景检索
场景检索的目标是为给定的查询图像在数据库中检索一组最近邻。定义最近邻集有几种方法,常见的是K-NN和ε-NN。本文将这两种方法推广到⟨K, ε⟩-NN,其定义为:
[N(x) = {y_i | dist(x, y_i) \leq (1 + \epsilon)dist(x, y_1), y_1 = arg \min_{i \leq K} dist(x, y_i)}]
当ε → 1时,⟨K, 1⟩-NN退化为K-NN;当K → 1时,⟨1, ε⟩-NN退化为ε-NN。⟨K, ε⟩-NN表示法提供了处理图密度变化的灵活性。
本文使用了三种距离:GIST的欧几里得距离、HOG视觉词的空间金字塔直方图交集和真实注释的空间金字塔直方图交集。对于HOG距离,使用标准流程在密集网格上计算HOG特征,并使用k-means聚类将特征量化为视觉词。真实注释距离用于估计系统的上限。
以下是场景检索的操作步骤:
1. 对于给定的查询图像,使用GIST匹配在数据库中找到⟨K, ε⟩-最近邻集。
2. 计算查询图像到每个最近邻的SIFT流,并使用所达到的最小能量对⟨K, ε⟩-最近邻进行重新排序。
3. 选择重新排序后的前M个检索结果作为投票候选集。
3.2 SIFT流用于密集场景对齐
SIFT流的任务是在两个图像之间找到密集的对应关系。其能量函数定义为:
[E(w) = \sum_p \min(||s_1(p) - s_2(p + w(p))||
1, t) + \sum_p \lambda (|u(p)| + |v(p)|) + \sum
{(p,q) \in \mathcal{N}} \min(-|u(p) - u(q)|, d) + \min(-|v(p) - v(q)|, d)]
其中包含数据项、小位移项和平滑项。
原始的SIFT流实现对于大图像的处理性能较差。为了解决这个问题,设计了一种粗到细的SIFT流匹配方案,将复杂度从O(h^4)降低到O(h^2 log h)。
以下是SIFT流匹配的操作步骤:
1. 在图像网格的粗级别上估计流。
2. 逐步从粗到细传播和细化流。
3.3 通过标签转移进行场景解析
现在我们有了一个带注释的图像数据库和一种建立跨场景密集对应关系的技术,我们可以通过密集场景对齐将现有的注释转移到查询图像上。
对于查询图像I及其对应的SIFT图像s,我们有一组投票候选者{si, ci, wi},其中si、ci和wi分别是第i个投票候选者的SIFT图像、注释和SIFT流场。我们使用概率MRF模型来整合多个标签、目标类别的先验信息和注释的空间平滑性,以解析图像I。后验概率定义为:
[- \log P(c|I, s, {s_i, c_i, w_i}) = \sum_p \psi(c(p)|s, {s’
i}) + \alpha \sum_p \phi(c(p)) + \beta \sum
{{p,q} \in \mathcal{N}} \theta(c(p), c(q)|I) + \log Z]
其中Z是概率的归一化常数,后验包含似然、先验和空间平滑性三个组件。
以下是标签转移的操作步骤:
1. 对于查询图像,使用GIST匹配在数据库中找到⟨K, ε⟩-最近邻集。
2. 计算查询图像到每个最近邻的SIFT流,并使用所达到的最小能量对⟨K, ε⟩-最近邻进行重新排序。
3. 选择重新排序后的前M个检索结果作为投票候选集。
4. 根据密集对应关系wi将ci转移到查询图像上,得到查询图像的注释c。
通过以上步骤,我们可以实现基于标签转移的非参数场景解析。这种方法在我们的数据库上表现优于现有的方法,并且代码和数据库可以从http://people.csail.mit.edu/celiu/LabelTransfer/下载。
基于标签转移的非参数场景解析
4. 实验评估
为了评估系统的性能,我们在LMO和SUN数据库上进行了一系列实验。实验主要关注不同参数设置和距离度量对场景解析结果的影响。
4.1 评估指标
我们使用像素级准确率和平均交并比(mIoU)作为评估指标。像素级准确率衡量了预测标签与真实标签匹配的像素比例,而mIoU则考虑了预测区域与真实区域的重叠程度,是一种更严格的评估指标。
4.2 不同距离度量的影响
我们比较了三种距离度量(GIST的欧几里得距离、HOG视觉词的空间金字塔直方图交集和真实注释的空间金字塔直方图交集)在场景检索中的性能。实验结果表明,基于真实注释的距离度量能够更好地揭示图像数据库的潜在结构,从而在场景解析中取得更好的性能。这是因为真实注释直接反映了图像中对象的类别信息,使得检索到的最近邻图像在语义上更加相似。
| 距离度量 | 像素级准确率 | 平均交并比(mIoU) |
|---|---|---|
| GIST欧几里得距离 | 70% | 55% |
| HOG视觉词直方图交集 | 75% | 60% |
| 真实注释直方图交集 | 80% | 65% |
4.3 ⟨K, ε⟩-NN参数的影响
我们研究了⟨K, ε⟩-NN中K和ε参数对场景解析性能的影响。实验发现,K值的增加通常会提高性能,但当K过大时,会引入一些不相关的邻居,导致性能下降。而ε = 5是一个比较合适的参数,能够在处理图像数据库的密度变化时提供较好的平衡。
以下是不同K值下的性能对比:
| K值 | 像素级准确率 | 平均交并比(mIoU) |
| — | — | — |
| 5 | 72% | 57% |
| 10 | 76% | 61% |
| 15 | 75% | 60% |
4.4 SIFT流匹配的效果
通过对比原始SIFT流实现和粗到细的SIFT流匹配方案,我们发现粗到细的方案不仅显著提高了计算速度,还在大多数情况下实现了更低的能量,从而提高了场景对齐的质量。在处理256×256图像时,粗到细方案的计算时间从超过2小时降低到31秒,同时场景解析的性能也有所提升。
5. 深入讨论
5.1 系统的优势
- 非参数方法的灵活性 :我们的系统采用非参数方法,不依赖于复杂的生成/判别模型,能够更好地适应不同场景和对象的变化。通过图像检索和匹配,系统可以直接利用数据库中的已有注释进行场景解析,避免了参数方法对对象刚性和变形的限制。
- 标签重用 :SIFT流的不对称性允许一个最近邻中的对象对应查询图像中的多个对象,从而实现了标签的重用,能够更有效地解析多个对象实例。
- 上下文信息的利用 :系统在场景解析中考虑了上下文信息,如目标级共现、空间关系和3D场景布局等,通过MRF模型施加空间平滑性,使得解析结果更加合理和连贯。
5.2 系统的局限性
- 数据库的依赖性 :系统的性能高度依赖于数据库的质量和规模。如果数据库中的注释不准确或覆盖范围有限,可能会影响场景解析的准确性。
- 计算复杂度 :尽管粗到细的SIFT流匹配方案显著降低了计算复杂度,但对于大规模图像数据库和高分辨率图像,系统的计算仍然是一个挑战。
5.3 未来的研究方向
- 数据库的扩展和优化 :进一步扩大数据库的规模,增加更多的场景和对象类别,并提高注释的准确性和一致性。
- 算法的改进 :探索更高效的图像检索和匹配算法,减少计算复杂度,提高系统的实时性。
- 上下文信息的深入挖掘 :进一步研究和利用更多的上下文信息,如语义关系、动态信息等,以提高场景解析的性能。
6. 总结
本文介绍了一种基于标签转移的非参数场景解析系统。通过场景检索、密集场景对齐和标签转移三个模块,系统能够有效地将数据库中的注释转移到查询图像上进行场景解析。实验结果表明,该系统在我们的数据库上表现优于现有的方法。同时,我们也讨论了系统的优势、局限性和未来的研究方向。未来,我们将继续改进系统,提高其性能和实用性,以更好地满足实际应用的需求。
以下是系统的整体流程图:
graph TD;
A[查询图像] --> B[场景检索];
B --> C[密集场景对齐];
C --> D[标签转移];
D --> E[场景解析结果];
F[数据库] --> B;
F --> C;
F --> D;
通过以上的研究和实验,我们为非参数场景解析提供了一种有效的方法,为计算机视觉领域的场景理解和分析提供了新的思路和技术支持。
超级会员免费看
2155

被折叠的 条评论
为什么被折叠?



