PPP：Joint Pointwise and Pairwise Image Label Prediction 解读

最新推荐文章于 2023-10-08 12:21:39 发布

hsiffish

最新推荐文章于 2023-10-08 12:21:39 发布

阅读量935

点赞数

分类专栏：图像标注文章标签：图像处理图像标注标签

图像标注专栏收录该内容

1 篇文章

订阅专栏

提出PPP框架，整合pointwise和pairwise图像标注，增强预测准确性。通过挖掘两类标签间潜在关系，构建统一双向图模型，实现图像类别、标签及属性联合预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PPP：Joint Pointwise and Pairwise Image Label Prediction 是CVPR2016的一篇文章，提出将pointwise（单标签）和pairwise label （对标签）结合起来进行图像标注词的预测。本文对该文章进行翻译和解读。

摘要

摘要部分主要阐述了本文的motivation。
pointwise label和pairwise label通常被分开考虑，两者之间潜在的联系成为了本文的motivation。基于从单-对标签双向图中提取的重叠组结构，本文提出了一个全新的框架PPP（pointwise and pairwise image label prediction）。实验表明该框架取得了目前的最好结果。

1 introduction

说明：本部分不是逐字逐句翻译，结合自己的理解进行解读

绪论部分，首先解释了什么是pointwise label，什么是pairwise label。基于标签种类的不同，把有监督视觉任务分成两类——pointwise 方法和pairwise 方法。在图像标注中，pointwise 方法针对一张图片而言，判断一张图像是否有特定的标注词；而pairwise方法是判断一张图像与另一张图像对比，是否有更大或更小的可能性拥有特定标注词。如下图所示，“4 door”更适合作为一个pointwise label，因为一辆汽车是否是4门的，是一个客观而明确的事实；而“sporty”会更适合作为pairwise label，因为很难判断中间这辆车是否是运动风，但是我们可以很确定地判断出，中间这辆车比左边这两更具有运动风，比右边这辆更不具运动风。

接下来，从标注的复杂度（labeling complexity）和表现力（representaional capability）说明了pointwise label和pairwise label二者的优缺点。在标注的复杂度方面，如果给定10张图片，那只需要十组pointwise labels；如果是pairwise label，至少需要45组图片对比（(10*9)/2）才能得到全局的排序信息。在表现力方面，pointwise label表现了一幅图像特定内容的有或者无，pairwise label表现了同一属性的关系。但如果单独使用pairwise label会引起描述的模糊。
既然pointwise labels 和pairwise labels各有千秋，本文提出了一个发现两种labels的潜在关系并融合两种labels的框架。什么是pointwise labels 和pairwise labels的潜在关系呢？从下图可以看到，“皮leather，琥珀色cognac，绑带lake up”这些标签让左边的这只鞋子有更高的分数拥有“正式”属性；而“high heel高跟”这个标签让右边这双鞋子有更低的分数拥有“comfort舒适”这个属性。反过来，如果“formal”和“comfort”拥有更高的分数，那么有更大的可能性拥有“Oxford牛津布”，较低的可能性拥有“wingtip尖头”。目前探究pointwise labels 和pairwise labels间关系的工作还没有。
图2 通过二分图找到单标签和对标签间的关系
本文用一种统一的双向图模型去追踪pointwise labels 和pairwise labels二者的潜在关系，将这两种labels进行融合，应用到图像标注中。文章的主要贡献如下：（1）对pointwise labels 和pairwise labels的关系进行建模和数学描述；（2）提出一个新型的联合框架PPP，同时预测图像的pointwise labels 和pairwise labels；（3）用提出的PPP框架进行实验。
文章接下来的内容中，第二章阐述了问题的定义和基本的模型。第三章描述了提出的框架和优化方法，第四章是实验，第五章是总结。

2 proposed method

论文中用到的符号以及一些定义说明：

$X \in\mathbb{R}^{n\times d}$ ：
数据集中的图像集合， $n$ 表示图像的数量， $d$ 表示特征的数量。
$Y_t\in\mathbb{R}^{n\times c_1}$ 和 $Y_c\in\mathbb{R}^{n\times c_3}$ ：
表示pointwise label，分别表示data-tag和data-label。 $Y(i,j)=1$ 表示图像 $i$ 拥有第 $j$ 个标签，反而则 $Y(i,j)=0$ 。
pairwise label的定义：
假设有训练集 $D$ ， $P$ 表示从训练集中获取的图像对集合。在提出的框架中，给出一个基于属性 $q$ 图像对 $<a,b>$ ，如果 $y_a\succ y_b$ ，则 $a$ 有正属性分数 $y(a,q,1)=|y_a-y_b|$ ，负属性分数 $y(a,q,2)=0$ ；与此同时， $b$ 有正属性分数 $y(b,q,1)=0$ 以及负属性分数 $y(b,q,2)=|y_a-y_b|$ 。
因此，pairwise label定义为 $Y_r\in \mathbb R^{m\times c_2}$ ，其中， $m$ 表示从训练样本中得到的图像对的数目， $c_2=2q$ ， $q$ 表示属性的数目。例如，令 $<a,b>$ 是第一对图像对，pairwise label $Y_r(1,2(q-1)+1)$ 表示 $y_a\succ y_b$ 的程度，而 $Y_r(1,2(q-1)+2)$ 表示 $y_a\prec y_b$ 的程度。

2.1 Baseline models

在提出的框架中，pointwise label用于分类和标注任务。对于分类，假设有一个线性分类器 $W_c \in \mathbb R^{d\times c_3}$ ，作用于 $X$ 得到pointwise label矩阵 $Y_c=XW_c$ ，则：

min W c Ω (W c) + L (W c, Y c, D) (1)

$\min_{W_c} \Omega(W_c)+\mathcal L(W_c,Y_c,D)\qquad(1)$ 其中，

L() $\mathcal L()$ 是一个损失函数，

Ω $\Omega$ 是一个防止过拟合的正则化函数，

D $D$ 是训练样本集。这里对

L $\mathcal L$ 使用最小二乘法。
对于标签标注，同样假设有一个线性分类器

Wt∈Rd×c1 $W_t \in \mathbb R^{d\times c_1}$ ，作用于

X $X$ 得到pointwise label矩阵

Yt=XWc $Y_t=XW_c$ ，则：

min W t Ω (W t) + L (W t, Y c, D) (2)

$\min_{W_t} \Omega(W_t)+\mathcal L(W_t,Y_c,D)\qquad(2)$
对于基于pairwise label的方法，一个简单有效的方案就是Rank SVM，该方法用一个预测函数作用于一组未知的数据，目的是以尽量小的损失学习得到一个模型

W $W$ 。与RankSVM类似，在我们的框架中，训练样本扩展到候选pairs集合，学习过程用的是pairwise特征向量，如下：

min W L (W, Y r, P) + Ω (W r) (3)

$\min_W \mathcal L(W,Y_r,P)+\Omega (W_r)\qquad(3)$ 此处，

P $P$ 是训练对集合。损失函数

L $\mathcal L$ 基于pairwise差异向量

x $x$ 定义：

L (W, Y r, P) = \sum ((a, y a, q a), (b, y b, q b)) \in P l (t (y a - y b), f (w, a - b)) (4)

$\mathcal L(W,Y_r,P)=\sum_{((a,y_a,q_a),(b,y_b,q_b))\in P}l(t(y_a-y_b),f(w,a-b))\qquad(4)$ 其中，转换函数

t(y) $t(y)$ 转换标签的差异性。在我们的框架中，转换函数定义为

t(y)=sign(y) $t(y)=sign(y)$ 。
注意，我们虽然可以通过把上面的各个目标函数直接相加得到一个统一的模型，但是这样一个模型中各个部分本质上还是独立的（虽然我们通过权重在他们之间进行了权衡），因为各个部分之间并没有明确的关系。

2.2 探索pointwise和pairwise标签间的关系

在上文中，我们利用pointwise label和pairwise label定义了三种任务。探究pointwise label和pairwise label间的关系有利于我们找到一个同时融合类别，标注词和排序的联合框架。

注：这里，一张图的信息包含类别labels（一个大的类别），标签tags（图像的客观特征），属性attribute（图像的主观特征）

首先，属性和标签的关系描述为二分图，如下图所示。假设 $B\in\mathbb R^{c_2\times c_1}$ 是图的邻接矩阵， $B(i,j)=1$ 表示第 $i$ 个标签和第 $j$ 个标签共同出现在一张图中，反而则 $B(i,j)=0$ 。在本文中，我们不考虑标签和属性的共生频率，这个留到以后的一个工作中。从二分图中，我们可以确认，在同一组中的标签和属性有着相同的性能特征比如语义。对于同一个组，一个特征 $X(:,i)$ 要不跟其相关，要不跟其不相关。例如， $W_r(i,j)$ 表示第 $i$ 个特征预测得到第 $j$ 个属性的影响，而 $W_t(i,k)$ 表示第 $i$ 个特征预测得到第 $k$ 个属性的影响。因此，我们在 $W_t$ 和 $W_i$ 上加约束，这个约束从二分图的组信息中得到，可以捕捉到属性和标签间的关系。

注：这里属性和标签与pointwise label和pairwise label的关系如下：标签用pointwise label可以表达出来，而属性需要用pairwise label表达

图2 通过二分图找到单标签和对标签间的关系

我们可以应用任何社区探测算法去确认二分图中的组。本文中我们使用一个非常简单的方法从二分图中提取组——对于第 $j$ 个属性，我们认为在二分图中与该属性连接起来的那些标签就是一个组。由于一个标签可能和若干个属性连接，所以可能会出现重叠。假设 $\mathcal G$ 是从属性-标签二分图中提取到的组的集合，最小化下面的式子以得到属性和标签间的关系：

Ω G (W t, r) = \sum i = 1 d \sum g \in G α g | | w i g | | 2 (5)

$\Omega_{\mathcal G}(W_{t,r})=\sum_{i=1}^{d}\sum_{g\in \mathcal G}\alpha_g||\mathrm w_g^i||_2\qquad(5)$ 其中，

Wt,r=[Wt,Wr] $W_{t,r}=[W_t,W_r]$ ，

αg $\alpha _g$ 是衡量组

g $g$ 和

wig $\mathrm w_g^i$ 是连接

{Wt,r(i,j)}j∈g $\{W_{t,r}(i,j)\}_{j\in g}$ 的向量的可信度。例如，如果

g={1,5,9} $g=\{1,5,9\}$ ，

wig=[Wt,r(i,1),Wt,r(i,5),Wt,r(i,9)] $w_g^i=[W_{t,r}(i,1),W_{t,r}(i,5),W_{t,r}(i,9)]$ ，接下来看看公式(5)的内在含义。对于一个特定的组

g $g$ ，

∑di=1||wig||2 $\sum_{i=1}^{d}||\mathrm w_g^i||_2$ 相当于对

g=[w1g,w2g,...,wdg] $g=[\mathrm w_g^1,\mathrm w_g^2,...,\mathrm w_g^d]$ 增加

l1 $l_1$ 约束，

||g||1 $||g||_1$ 。这保证了关于

g $g$ 的稀疏解，换句话说，

g $g$ 的一些元素会是0。如果

gi=0 $g_i=0$ 或者

||w2g||2=0 $||w_g^2||_2=0$ ，那么第

i $i$ 个特征对属性和标签的影响就同时消除了。
类似地，我们建立二分图去发现属性和类别间的潜在关系。文献[21]指出，标签和类别的共生关系夜莺考虑。因此，我们建立了一个混合的二分图来提取间类别，标签和属性的组信息。组正则化

ΩG2(Wt,r,c) $\Omega_{\mathcal G2}(W_{t,r,c})$ 跟公式(5)类似，描述见图2，一个标签或者属性如果和类别联合互相联合，那他们就连在一起。注意，从图2提取的一个组，可能包含一个类别，一组属性和一组标签。

2.3 提出的框架

通过应用二分图，提出的框架相当于解决下面的优化问题：

min W L (W c, Y c, D) + L (W t, Y t, D) + L (W r, Y r, D P) + λ (| | W c | | 2 F + | | W t | | 2 F + | | W r | | 2 F) + α Ω G 2 (W t, r) + β Ω G 2 (W t, r, c) (6)

$\min_W\ \mathcal L(W_c,Y_c,D)+\mathcal L(W_t,Y_t,D)+\mathcal L(W_r,Y_r,DP)\\ +\lambda (||W_c||^2_F+||W_t||^2_F+||W_r||^2_F)\\ +\alpha\Omega_{\mathcal G2}(W_{t,r})+\beta\Omega_{\mathcal G2}(W_{t,r,c})\qquad(6)$ 公式(6)中，前六项来自基础的预测类别，标签，排序（属性）的模型，第7项和第8项是追踪输出的重叠结构，分别由

α,β $\alpha,\beta$ 控制。组正则化定义如下：

Ω G (Z) = \sum i \in G | | Z g | | 2 = \sum i = 1 d \sum g \in G | | z i g | | 2 (7)

$\Omega_\mathcal G(Z)=\sum_{i\in\mathcal G}||Z_g||_2=\sum_{i=1}^{d}\sum_{g\in \mathcal G}||\mathrm z_g^i||_2\qquad(7)$

3 PPP的优化方法

因为组结构有重叠，所以直接求解目标函数很困难，我们用ADMM方法优化这个目标函数。首先，我们介绍两个辅助变量 $P=[W_t,W_r]\mathrm M_1$ 和 $Q=[W_t,W_r,W_c]\mathrm M_2$ 。 $\mathrm M_1\in \{0,1\}^{(c_1+c_2)\times c_2(c_1+c_2)}$ 被定义为：如果第 $i$ 个标签连接第 $j$ 个属性则 $\mathrm M_1(i,(c_1+c_2)(j-1)+i)=1$ ，否则为0。 $\mathrm M_2\in \{0,1\}^{(c_1+c_2+c_3)\times c_3(c_1+c_2+c_3)}$ 的定义和 $\mathrm M_2$ 类似。通过这两个变量，解决 $\mathrm W$ 的重叠组套索问题（group lasso）就变成了分别解决 $\mathrm P$ 和 $\mathrm Q$ 的非重叠组套索问题。因此，优化函数变成：

min W, P, Q L (W c, D) + L (W t, D) + L (W r, D) + α Ω G (P) + β Ω G 2 (Q) + λ (| | W c | | 2 F + | | W t | | 2 F + | | W r | | 2 F) s . t . P = [W t, W r] M 1; Q = [W t, W r, W c] M 2; (8)

$\min_{W,P,Q}\ \mathcal L(W_c,D)+\mathcal L(W_t,D)+\mathcal L(W_r,D)\\+\alpha\Omega_\mathcal G(P)+\beta\Omega_{\mathcal G2}(Q)\\+\lambda(||W_c||_F^2+||W_t||_F^2+||W_r||_F^2)\\s.t.P=[W_t,W_r]M_1;Q=[W_t,W_r,W_c]M_2;\qquad(8)$
上式可以用下面的ADMM问题解决：

min W, P, Q L (W c, Y c, D) + L (W t, Y t, D) + L (W r, Y r, D) + λ (| | W c | | 2 F + | | W t | | 2 F + | | W r | | 2 F) + α Ω G (P) + β Ω G 2 (Q) + ⟨ Λ 1, P - [W t, W r] M 1 ⟩ + ⟨ Λ 2, Q - [W t, W r, W c] M 2 ⟩ + μ 2 ∥ P - [W t, W r] M 1 ∥ 2 F + μ 2 ∥ Q - [W t, W r, W c] M 2 ∥ 2 F (9)

$\min_{W,P,Q}\ \mathcal L(W_c,Y_c,D)+\mathcal L(W_t,Y_t,D)+\mathcal L(W_r,Y_r,D)\\+\lambda(||W_c||^2_F+||W_t||^2_F+||W_r||^2_F)+\alpha \Omega_\mathcal G(P)\\+\beta\Omega_\mathcal {G2}(Q)+ \langle\Lambda_1,\mathrm P-[W_t,W_r] M_1\rangle\\ +\langle\Lambda_2,\mathrm Q-[W_t,W_r,W_c] M_2\rangle\\ +\frac{ \mu }{2} \Vert P-[W_t,W_r]M_1\Vert^2_F\\ +\frac{ \mu }{2} \Vert Q-[W_t,W_r,W_c]M_2\Vert^2_F\qquad(9)$ 其中，

Λ $\Lambda$ 是拉格朗日乗法子，

μ $\mu$ 是

P=[Wt,Wr]M1 $P=[W_t,W_r]M_1$ 和

Q=[Wt,Wr,Wc]M2 $Q=[W_t,W_r,W_c]M_2$ 相等约束的惩罚。损失函数

L $L$ 有很多种选择，这里选的是最小二乘损失函数。
接下来是用ADMM的解法去解决这个目标函数。

接下来的优化内容，语言上理解不难，主要是数学上的理解。翻译不是很必要，不再翻译该部分的内容。步骤大概是：
3.1 更新 $W$
3.2 更新 $P$
3.3 更新 $Q$
3.4 更新 $\Lambda_1,\Lambda_2,\mu$

最后的算法如下：
输入： $X_D \in R^{N\times d}$ 和 $X_P \in R^{m\times d}$ 和相关标签 $Y_t,Y_c,Y_r$
输出：每个实例的 $c_1$ 标签， $c_2相关分数$ 和 $c_3$ 类别
1、初始化随机样本训练集 $D$ 和从训练集 $D$ 中随机提取的图像对集 $P$
2、设置 $\mu=10^{-3},\rho=1.1,\mu_{max}=10^8$ ，并得到 $M_1,M_2$
3、预计算特征分解
4、重复
5、计算 $\widetilde W_t,\widetilde W_c,\widetilde W_r$
6、分别通过公式(16)(21)(18)更新 $W_t, W_c,W_r$
7、计算 $Z^P,Z^Q$
8、更新 $P,Q$
9、更新 $\Lambda_1,\Lambda_2,\mu$
10、直到收敛
11、用 $XW$ 的最大池化测试，预测标签，相关关系和类别