25、基于密集对应关系的弱标注图像数据集联合推理

基于密集对应关系的弱标注图像数据集联合推理

1. 引言

在图像数据集的处理中,当仅拥有稀疏和/或有噪声的图像信息时,推断合理的像素标签是一项具有挑战性的任务。为了解决这个问题,我们提出了一种通过密集对应关系进行弱标注图像数据集联合推理的方法。该方法利用图像结构和对应像素之间的相似性,构建了一个图形模型,旨在优化目标函数以推断像素标签。

2. 图形模型与推理问题

图形模型扩展了传统的离散马尔可夫随机场(MRF)公式,主要体现在两个重要方面:
- 引入了图像间兼容性项,不仅在每个图像内部,还在图像之间对解决方案进行正则化。
- 涉及数据集中的所有图像,而非单个图像。

目标函数如公式(1)所示,它封装了一个巨大的推理问题,优化过程绝非易事。对于包含104张大小为256×256的图像数据集,图中共有6.55×10⁸个节点(像素),每个节点约有10²条边,总计约6.55×10¹⁰条边。为了解决这个巨大的图推理问题,我们设计了一种高效的并行消息传递算法,该算法由嵌入在坐标下降方案中的信念传播算法组成。虽然目标函数是非凸的,不能保证达到全局最小值,但实验表明,它能产生合理的解决方案,提升了所探索应用的技术水平。

3. 应用领域

该框架可应用于两个计算机视觉领域:语义标注、目标发现和分割。这两个问题都可以作为该框架的特定配置,具体差异如下表所示:
| 应用场景 | 像素对应关系用途 | 图像图构建方式 |
| ---- | ---- | ---- |
| 语义标注 | 仅用于正则化((\gamma_{ij}^{ext})) | 构建一次 |
| 目标发现和分割 | 用于正则化和似然函数((\psi_{i})) | 迭代更新和细化 |

4. 注释传播应用

我们将推理框架应用于弱标注数据集中图像的语义分割问题。该方法利用不同图像之间的视觉相似性,在较少人工标注的情况下实现自动标注。

4.1 公式化
  • 像素标签假设 :每个像素可以获得L + 1种可能的标签,即(V = {l_1, \cdots, l_L, \varnothing}),其中额外的标签(\varnothing)表示像素未被标注。
  • 初始注释 :数据集可能包含图像标签和部分像素标签,用(A = {T_t, C_l})表示,其中(I_t)和(T_t)表示带标签的图像子集及其标签,(I_l)和(C_l)表示带像素标签的图像子集及其标签。
  • 图像标签定义 :图像的标签(T = {t_1, \cdots, t_N : t_i \subseteq {1, \cdots, L}})直接定义为图像中像素标签的集合,即(t_i = \bigcup_{x \in \Omega_i} c_i(x))(忽略未标注像素)。
4.2 图像图构建

由于计算和存储每对图像之间的密集像素对应关系对于大型数据集来说是不可行的,我们将图像内兼容性限制在与该图像最相似的K个图像集合中。具体步骤如下:
1. 定义每个图像(I_i)的最近邻集合(N_i)为其前(\langle K, \tau \rangle)个相似图像,其中K是最大邻居数,(\tau)是图像间距离的阈值。我们使用Gist描述符之间的L2范数作为图像相似性度量。
2. 确定每个图像的邻居集合后,使用SIFT - flow计算图像与其每个邻居之间的像素对应关系。

4.3 目标函数项
  • 似然项 :从图像标签和可能的像素标签中,定义像素(x)在图像(I_i)中获得标签(l \in V)的似然项(\psi_i(x))。具体步骤如下:
    1. 提取每个像素的局部图像特征。
    2. 利用具有相似标签的图像之间的视觉共性以及可用的像素标签,学习每个词汇的视觉外观模型。
    3. 得到每个像素(x)上标签的概率分布估计(P_a(x))。
    4. 似然项定义为(\psi_i(x) = - \log P_a(x))。
  • 模型参数项 :该应用的模型参数项由三个部分组成:
    (\psi_{i}^{\epsilon}(x, \Theta) = - \log P_{i}^{t}(c_i(x)) - \lambda_s \log P_s(x) - \lambda_c \log P_{i}^{c}(x))
    其中,(P_{i}^{t}(c_i(x)))是标签似然项,估计图像(I_i)中某个位置具有标签(c_i(x))的概率;(P_s(c_i(x)))和(P_{i}^{c}(c_i(x)))分别基于像素的相对空间位置和颜色捕获标签(l)在像素(x)处出现的概率。(\lambda_s)和(\lambda_c)分别平衡(P_s)和(P_{i}^{c})的贡献。
  • 正则化项
    • 图像内兼容性 :相邻像素之间的图像内兼容性基于标签共现和图像结构定义,对于图像(I_i)和空间邻居(x, y \in N_{i}^{x}),有:
      (\gamma_{i}^{int}(x, y) = - \lambda_o \log h_o (c_i(x), c_i(y)) + \delta [c_i(x) \neq c_i(y)] \lambda_{int} \exp \left( - \frac{|I_i(x) - I_i(y)|^2}{2} \right))
    • 图像间兼容性 :图像(I_i)中像素(x)与其在图像(I_j)中对应像素(z = x + w_{ij}(x))之间的图像间兼容性定义为:
      (\gamma_{ij}^{ext}(x, z) = \delta [c_i(x) \neq c_i(z)] \frac{\alpha_j}{\alpha_i} \lambda_{ext} \exp \left( - |\mathbf{S}_i(x) - \mathbf{S}_j(z)|_1 \right))
      其中,(\alpha_i)和(\alpha_j)是图像权重,(\mathbf{S}_i)是图像(I_i)的(密集)SIFT描述符。
5. 文本到图像对应关系
5.1 局部图像描述符

我们选择在目标和场景识别中常用的特征来表征局部图像结构和颜色特征:
- 结构特征:使用SIFT和HOG特征。计算围绕像素的3和7个单元的密集SIFT描述符,并计算HOG特征,将2×2补丁内的相邻HOG描述符堆叠在一起。
- 颜色特征:使用以每个像素为中心的7×7 L a b颜色空间补丁表示。
将所有特征堆叠后,每个像素(x)在图像(I_i)中得到一个527维的描述符(\mathbf{D}_i(x))。使用主成分分析(PCA)将描述符降维到d = 50维,捕获约80%的特征方差。

5.2 学习外观模型

我们使用基于高斯混合的生成模型来表示上述连续特征的分布。具体来说,在50维描述符空间中,使用全协方差高斯混合模型(GMM)对数据库词汇中的每个单词进行建模。对于像素(x)在图像(I_i)中,定义:
(P(\mathbf{D} i(x); \Theta) = \sum {l = 1}^{L} \omega_l \sum_{k = 1}^{M} \pi_{l,k} \mathcal{N}(\mathbf{D} i(x); \boldsymbol{\mu} {l,k}, \boldsymbol{\Sigma} {l,k}) + \omega {\varnothing} \mathcal{N}(\mathbf{D} i(x); \boldsymbol{\mu} {\varnothing}, \boldsymbol{\Sigma} {\varnothing}))
其中,(\omega_l)是模型(单词)(l)生成特征(\mathbf{D}_i(x))的权重,(M)是每个模型的组件数((M = 5)),(\pi
{l,k})、(\boldsymbol{\mu} {l,k})和(\boldsymbol{\Sigma} {l,k})分别是模型(l)中组件(k)的混合权重、均值和协方差。我们使用具有参数(\boldsymbol{\mu} {\varnothing})和(\boldsymbol{\Sigma} {\varnothing})的高斯异常值模型,权重为(\omega_{\varnothing})。

使用标准的期望最大化(EM)算法在最大似然意义下优化参数(\Theta)。模型初始化步骤如下:
1. 使用k - means将描述符划分为L个簇,并为每个簇拟合一个GMM。
2. 异常值模型从数据库中随机选择的像素初始化。
3. 明确限制每个像素仅将其数据贡献给与其估计(或给定)图像标签对应的单词模型。

给定学习到的模型参数(\Theta)和观察到的描述符(\mathbf{D} i(x)),像素属于单词(l)的概率计算为:
(P_a(c_i(x) = l; \mathbf{D}_i(x), \Theta) = \frac{\omega_l \sum
{k = 1}^{M} \pi_{l,k} \mathcal{N}(\mathbf{D} i(x); \boldsymbol{\mu} {l,k}, \boldsymbol{\Sigma}_{l,k})}{P(\mathbf{D}_i(x); \Theta)})

mermaid流程图如下:

graph TD;
    A[提取局部图像特征] --> B[学习视觉外观模型];
    B --> C[得到概率分布估计P_a(x)];
    C --> D[定义似然项psi_i(x)];
    E[确定邻居集合] --> F[计算像素对应关系];
    G[初始化模型参数] --> H[EM算法优化];
    H --> I[计算像素属于单词的概率];

基于密集对应关系的弱标注图像数据集联合推理

6. 优化过程

优化过程在估计外观模型和传播像素标签之间交替进行,具体流程如下:
1. 初始化外观模型 :从数据集中的图像和部分注释初始化外观模型。
2. 消息传递方案分区 :将消息传递方案分为图像内和图像间更新,并通过将每个图像的计算分配到不同核心进行并行化。
3. 信念传播算法执行 :信念传播算法从每个图像的空间消息传递(TRW - S)开始,进行几次迭代,然后更新每个图像的传出消息,进行多次迭代。
4. 迭代与收敛 :推理算法以GrabCut方式在消息传递和估计颜色直方图之间迭代,在几次迭代内收敛。
5. MAP标注计算 :算法收敛后,计算最大后验(MAP)标注,确定所有图像的标签和标签集。

7. 选择待标注图像

为了更有效地选择用户标注的图像,我们希望选择具有许多相似图像的“图像中心”,因为这些图像在图像图中有许多直接邻居,可以有效地传播标签。具体操作步骤如下:
1. 使用视觉PageRank :使用视觉PageRank算法找到适合标注的图像,再次使用Gist描述符作为图像相似性度量。
2. 图像聚类与阻尼因子设置 :为确保考虑数据集中的所有图像,首先对图像进行聚类,并在视觉排名计算中使用非均匀阻尼因子,为最接近聚类中心的图像分配更高的权重。
3. 确定标注图像集 :给定注释预算((r_t, r_l)),其中(r_t)表示数据集中带标签图像的百分比,(r_l)表示带像素标签图像的百分比,将(I_l)和(I_t)设置为排名前(r_l)和(r_t)的图像。

8. 实验结果

我们使用多个数据集对所提出的方法进行了广泛的实验,数据集信息如下表所示:
| 数据集名称 | 图像数量 | 词汇数量 | 图像大小 |
| ---- | ---- | ---- | ---- |
| SUN | 9556 | 522 | 256×256 |
| LabelMe Outdoors (LMO) | 2688 | 33 | 256×256 |
| ESP game dataset | 21846 | 269 | - |
| IAPR benchmark | 19805 | 291 | - |

我们在LMO数据集上调整算法参数,并将其余实验的参数固定为最佳设置:(\lambda_s = 1),(\lambda_c = 2),(\lambda_o = 2),(\lambda_{int} = 60),(\lambda_{ext} = 5)。实践中,算法收敛到局部最小值需要五次迭代,学习外观模型的EM算法通常在15次迭代内收敛,消息传递算法在50次迭代内收敛。使用每个图像16个邻居时获得最佳结果。

mermaid流程图如下:

graph TD;
    A[初始化外观模型] --> B[消息传递分区];
    B --> C[信念传播执行];
    C --> D[迭代与收敛];
    D --> E[计算MAP标注];
    F[图像聚类] --> G[设置阻尼因子];
    G --> H[视觉PageRank计算];
    H --> I[确定标注图像集];
9. 总结

本文提出了一种通过密集对应关系进行弱标注图像数据集联合推理的方法,并将其应用于图像语义分割问题。通过构建图像图、定义目标函数、学习外观模型和优化算法,我们在多个数据集上进行了实验,取得了较好的结果。具体总结如下:
- 方法优势 :利用图像间的视觉相似性和密集对应关系,在较少人工标注的情况下实现自动标注,提高了标注效率。
- 关键技术 :包括图像图构建、目标函数定义、局部图像描述符提取、外观模型学习、优化算法设计和待标注图像选择等。
- 实验结果 :在多个数据集上进行了实验,通过调整参数和选择合适的邻居数量,算法能够在几次迭代内收敛,取得了较好的标注效果。

未来,我们可以进一步探索该方法在其他计算机视觉任务中的应用,如目标检测、图像分类等,同时优化算法的性能,提高标注的准确性和效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值