27、弱标注图像数据集的密集对应联合推理

最新推荐文章于 2025-12-12 13:16:09 发布

aa123

最新推荐文章于 2025-12-12 13:16:09 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：密集对应：视觉的桥梁文章标签：弱标注密集对应图像分割

本文链接：https://blog.youkuaiyun.com/aa123/article/details/154814359

密集对应：视觉的桥梁专栏收录该内容

29 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

弱标注图像数据集的密集对应联合推理

1. 目标函数项

1.1 似然项

实现基于以下假设：属于共同对象的像素（特征）应具备两个特性。一是显著，即与所在图像中的其他像素不同；二是稀疏，即在图像间的平滑变换（如颜色、大小和位置可能变化）下，与其他图像中的像素（特征）相似。似然项的定义如下：
[
\tilde{\phi} i(x) =
\begin{cases}
\phi {i}^{\text{saliency}}(x) + \lambda_{\text{match}}\phi_{i}^{\text{match}}(x), & c_i(x) = 1 \
\beta, & c_i(x) = 0
\end{cases}
]
其中，(\beta) 是用于调整背景像素似然性的常数参数。减小 (\beta) 会使每个像素更可能属于背景，从而对前景进行更保守的估计。

像素或区域的显著性可以用多种方式定义。在实验中，使用了 Cheng 等人基于对比度的显著性度量，它能为我们的目的提供足够好的显著性估计，但该公式并不局限于特定的显著性度量，也可使用其他方法。

给定每个图像 (I_i) 的显著性图 (cM_i)，首先计算数据集范围内的归一化显著性 (M_i)（值在 ([0, 1]) 之间），并定义项：
[
\phi_{i}^{\text{saliency}}(x) = - \log M_i(x)
]
该项会促使更显著（或不显著）的像素在后续被标记为前景（或背景）。

匹配项基于计算的对应关系定义：
[
\hat{\phi} {i}^{\text{match}}(x) = \frac{1}{|N_i|} \sum {j \in N_i} \left\lVert S_i(x) - S_j(x + w_{ij}(x)) \right\rVert_1
]
较小的值表示与对应像素的相似度更高。与显著性类似，也计算一个数据集范围内的归一化项 (\phi_{i}^{\text{match}})。

1.2 模型参数

还学习图像 (I_i) 的背景和前景的颜色直方图，公式如下：
[
\phi_{i}^{\epsilon}(c_i(x) = l, \Theta) = - \log h_{i,l}^c(I_i(x))
]
这里，模型参数仅由这些颜色直方图组成：(\Theta = {h_{i,0}^c, h_{i,1}^c}; i = 1 \cdots N)。

1.3 正则化

正则化项与图像标注中定义的类似。像素 (x) 与其空间邻域 (y \in N_i^x) 之间的图像内兼容性为：
[
\psi_{i}^{\text{int}}(x, y) = [c_i(x) \neq c_i(y)] \exp \left( - \frac{\left\lVert I_i(x) - I_i(y) \right\rVert^2}{2} \right)
]
图像间兼容性定义为：
[
\psi_{ij}^{\text{ext}}(x, z) = [c_i(x) \neq c_j(z)] \exp \left( - \left\lVert S_i(x) - S_j(z) \right\rVert_1 \right)
]
其中 (z = x + w_{ij}(x)) 是图像 (I_j) 中对应于 (x) 的像素。

2. 优化

此问题的状态空间中每个节点只有两个可能的标签：背景（0）和前景（1），这比传播标注的状态空间小得多（传播标注的状态空间大小达数百）。因此，可以更有效地优化目标函数，并且能在合理的计算时间内更新图结构。

优化过程如下：
1. 交替优化对应关系 (W) 和二进制掩码 (C)。
2. 不联合优化所有数据集图像，而是使用坐标下降法，每次固定其他图像的分割掩码，优化单个图像。
3. 从其他图像传播标签后，使用类似 Grabcut 的方法交替优化目标函数和估计颜色模型 ({h_{i,0}^c, h_{i,1}^c})。
4. 算法根据当前前景估计重新计算相邻图像和像素对应关系，重建图像图，重复此过程直到收敛（通常使用 5 - 10 次迭代）。

3. 实验结果

进行了广泛的实验，在标准共分割数据集和从互联网下载的图像集上验证方法。手动调整算法参数，除非另有说明，使用以下参数设置：(\lambda_{\text{match}} = 4)；(\lambda_{\text{int}} = 15)；(\lambda_{\text{ext}} = 1)；(\lambda_{\text{color}} = 2)；(\alpha = 2)；(K = 16)。

使用两个性能指标进行定量评估：精度 (P)（正确标记的像素比例，包括前景和背景）和 Jaccard 相似度 (J)（结果与地面真值分割的交集与并集之比）。

3.1 标准共分割数据集结果

在 MSRC 数据集（14 个对象类，每类约 30 张图像）和 iCoseg 数据集（30 个类，每类图像数量不同）上进行实验。

分别在有和没有目标函数中的图像间组件的情况下运行方法。有趣的是，发现使用图像间项对这些数据集的结果影响可忽略不计。这种简单算法（即使用现成的低级别显著性度量和空间正则化，不使用共分割）足以在标准共分割数据集上产生准确的结果，并且优于最近的技术。

原因有两点：一是这些数据集中每个视觉类别的所有图像都包含感兴趣的对象；二是对于大多数图像，仅基于相对显著性就可以很容易地将前景与背景分离。

与三种最先进的共分割方法进行比较，结果表明在精度和 Jaccard 相似度方面都有显著提高。与 Object Cosegmentation 方法的比较显示，在 MSRC 数据集的所有类和 iCoseg 数据集的 9/16 类上表现更优，平均精度和 Jaccard 相似度略好。

数据集	方法	平均精度（NP）	Jaccard 相似度（NJ）
MSRC	Vicente 等人 [50]	90.2	70.6
MSRC	我们的方法	92.16	74.7
iCoseg	Vicente 等人 [50]	85.34	62.04
iCoseg	我们的方法	89.6	67.63

mermaid 格式流程图展示在标准共分割数据集上的实验流程：

graph LR
    A[选择数据集] --> B[设置参数]
    B --> C{是否使用图像间组件}
    C -- 是 --> D[使用全目标函数运行方法]
    C -- 否 --> E[不使用图像间组件运行方法]
    D --> F[评估结果]
    E --> F
    F --> G[与其他方法比较]

4. 互联网数据集结果

使用 Bing API 通过维基百科扩展查询，自动下载了汽车（4347 张图像）、马（6381 张图像）和飞机（4542 张图像）的图像。平均每个数据集处理时间为 10 小时。

算法能够发现视觉对象，尽管图像在风格、颜色、纹理、姿态、比例、位置和视角上有很大变化。对于均匀背景或颜色独特的对象，方法能够输出近乎完美的分割。

在有和没有使用图像对应关系的情况下，对每个数据集的精度和 Jaccard 相似度进行评估。图像对应关系对汽车数据集帮助最大，可能是因为许多图像中的汽车不太显著，但可以与其他相似汽车图像可靠匹配以正确分割。

数据集（噪声图像百分比）	方法	精度（P）	Jaccard 相似度（J）
汽车（7.5%）	无对应关系	72.25	46.10
汽车（7.5%）	有对应关系	83.38	63.36
马（7.8%）	无对应关系	74.88	50.06
马（7.8%）	有对应关系	83.69	53.89
飞机（16%）	无对应关系	80.53	51.18
飞机（16%）	有对应关系	86.14	55.62

与三种先前提出的方法以及两个基线（所有像素分类为背景和所有像素分类为前景）进行比较，结果表明在所有性能指标上都产生了更好的结果。

mermaid 格式流程图展示在互联网数据集上的实验流程：

graph LR
    A[下载图像数据集] --> B[设置参数]
    B --> C{是否使用图像对应关系}
    C -- 是 --> D[使用对应关系运行方法]
    C -- 否 --> E[不使用对应关系运行方法]
    D --> F[评估结果]
    E --> F
    F --> G[与其他方法和基线比较]

弱标注图像数据集的密集对应联合推理

5. 方法局限性

尽管该算法在多个数据集上表现出色，但仍存在一些局限性：
- 误报问题 ：在汽车数据集中可能将摩托车和前照灯误判为前景，在马数据集中可能将树误判为前景。这表明虽然匹配图像结构通常能实现对象级对应，但在不考虑上下文时会出现例外情况。
- 独特视图和背景对象识别困难 ：由于使用 Gist 作为全局图像描述符，独特的视图和背景使得在数据集中检索相似对象变得困难，导致算法偶尔无法发现这些对象。
- 结构化噪声处理问题 ：算法隐式假设数据集噪声是非结构化的，即重复的视觉模式被认为是某个“共同”对象的一部分。例如，在包含 80 张汽车图像和 20 张汽车轮子图像的数据集中，使用固定的 (K = 16) 个相邻图像可能导致组内连接，使算法无法推断出哪个类别更常见，从而将汽车和轮子都分割为前景。不过，固定的 (K) 设置在实践中表现良好，但一般情况下 (K) 需要根据用户对“共同”的定义进行设置。

6. 方法总结与优势

该方法是一种基于对应关系驱动（即基于示例）的计算机视觉方法，适用于稀疏训练数据的情况。其主要优势和特点如下：
1. 利用密集图像对应关系 ：通过密集图像对应关系明确强制跨图像的一致标注，解决了由于相似视觉模式导致的视觉歧义问题。
2. 全局优化能量函数 ：定义了整个数据集上的能量函数，并对所有图像进行联合优化。
3. 数据利用效率高 ：与依赖大量密集标注图像训练集的先前方法不同，该方法能够有效利用数据集中的规律和结构，使用显著更少的数据即可完成任务。

7. 应用场景与扩展

该方法可以应用于两个不同的计算机视觉问题：
- 图像标注 ：实验表明，该系统能够产生合理的语义标注和标签，在多个大规模图像数据集上优于现有方法，同时所需的人工标注显著减少。
- 自动视觉对象发现和分割 ：能够自然地处理互联网图像集合中的视觉变化和噪声，在标准共分割数据集和几个具有挑战性的互联网数据集上改进了现有的共分割技术。

以下是图像标注和对象发现实现的主要差异对比表格：
| 对比项 | 语义分割 | 对象发现 |
| ---- | ---- | ---- |
| 输入图像标注 | 稀疏标签和像素标签 | - |
| 词汇表（(\vert V \vert)） | 数百个单词 | 前景、背景（2 个） |
| 似然项 | 外观模型 | 显著性 + 匹配 |
| 对应关系用途 | 正则化 | 似然项 + 正则化 |
| 图像图 | 静态（仅计算一次） | 动态（迭代更新） |
| 参数 | 每个图像的颜色模型、每个类别的空间分布、类共现 | 每个图像的颜色模型 |

未来，该框架有望应用于推断大型稀疏标注数据集中的深度、几何和边缘标签等任务。

mermaid 格式流程图展示方法的整体应用流程：

graph LR
    A[输入弱标注图像数据集] --> B[构建大型图形模型]
    B --> C[联合推理像素标签]
    C --> D{应用场景}
    D -- 图像标注 --> E[生成语义标注和标签]
    D -- 自动视觉对象发现和分割 --> F[发现并分割对象]
    E --> G[评估结果]
    F --> G
    G --> H[根据结果调整参数或方法]
    H --> C

综上所述，这种基于密集对应关系的联合推理方法在计算机视觉领域具有很大的潜力，能够在稀疏训练数据的情况下有效地解决多个视觉任务，并且在多个数据集上取得了优于现有方法的结果。但同时也需要注意其局限性，在实际应用中根据具体情况进行调整和优化。