一、基于流形的视觉目标计数
- 提出了一种基于流形的视觉目标计数方法;
- 通过正则化和非线性映射来考虑非负性和稀疏表示,来优化局部几何的特征;
- 用局部模式学习和分层搜索被用来进一步提高所提出的方法及其变体的计算效率。
二、方法概括
figure1 提出的基于流形的视觉对象计数方法。橙色框内为测试部分(step 4)。红色为训练部分(step 1-3)。
- 基于训练样本的点标注生成密度图作为groundtruth,并从中训练图像中提取图像patch,从密度图中提取密度patch;
- 对提取的patch集进行特征工程;
- 对patch集做聚类,并生成层级架构;
- 对patch集作密度图重构,目标为得到最优权重,以生成测试集的密度图。
三、流形假设
本文提出了一种流形假设:相似的图像patch其密度图也相似,即patch和其密度图是共享相似局部几何的两种流形。那么,就可以从相似的图像patch及其密度图推测出未知图像的密度图。那么,图像patch x\pmb{x}xxx 和其密度图 xd\pmb{x}_dxxxd就可以表示为:
四、方法详细流程
1. 生成训练集的密度图
figure2. 行人点标注和对应的密度图
- 密度图可以用2D高斯核函数计算:Idi(z)=∑U∈UiN(z;U,σ212×2)\pmb{I}_d^i(z) = \sum_{U\in{\pmb{U}^i}}\mathcal{N}(z; U,\sigma^2\pmb{1}_{2\times2})IIIdi(z)=U∈UUUi∑N(z;U,σ21112×2)其中Id\pmb{I}_dIIId是I\pmb{I}III的密度图,即ground truth,zzz 是图像 Ii\pmb{I}^iIIIi 的像素索引,iii是图像索引, UUU 是标注的点的坐标,Ui\pmb{U}^iUUUi 是 Ii\pmb{I}^iIIIi 中所有点的坐标集。N\mathcal{N}N是归一化2D高斯核函数,σ2\sigma^2σ2 是用于平滑局部分布的 N\mathcal{N}N 的方差,并且根据对象的大小(大约是对象大小的1/2)来设置。- 而目标计数可以计算为密度图上所有点之和:Idi(z)=∑z∈IdiIdi(z)\pmb{I}_d^i(z) = \sum_{z\in{\pmb{I}_d^i}} \pmb{I}_d^i(z)IIIdi(z)=z∈IIIdi∑IIIdi(z)
2. 特征工程
- 为了增加特征空间中的采样密度和减少计算负担,采用主成分分析法(PCA) 对patch形式的原始数据特征进行集中、归一化和降维。
3. 构建搜索架构
- 为了降低算法的时间复杂度,采用分层搜索结构,该结构的节点是通过聚类产生的。- 结构分为两层,第一层包含K\sqrt{K}K个节点,代表图像patch集Y\pmb{Y}YYY用K-means生成的K\sqrt{K}K个聚类的质心,第二层中,第一层的每个节点包含K\sqrt{K}K个子节点,代表Y\pmb{Y}YYY用K-means生成的K\sqrt{K}K个聚类的质心,并分配给其特征节点。
- 也就是说,先找到与样本patch x\pmb{x}xxx 相似度相近的某个聚类,在根据这个聚类找到与这个聚类相似的K\sqrt{K}K个聚类,这K\sqrt{K}K个聚类即为样本patch x\pmb{x}xxx的近邻集合D\pmb{D}DDD。### 4. 密度图重构- 采用基于流形假设的非参数方法来学习权重w\pmb{w}www,再用w\pmb{w}www来计算密度图xd\pmb{x}_dxxxd- w∗=arg minwJ(w∣x,D) s.t.1Tw=1\pmb{w}^* = arg\,\min_{\pmb{w}} \mathcal{J}(\pmb{w|x,D})~~~~~~s.t. \pmb{1^Tw}=1www∗=argwwwminJ(w∣x,Dw∣x,Dw∣x,D) s.t.1Tw1Tw1Tw=1J(w∣x,D)\mathcal{J}(\pmb{w|x,D})J(w∣x,Dw∣x,Dw∣x,D)是损失函数,对w\pmb{w}www做优化- 那么xd\pmb{x}_dxxxd可以计算为:xd≌Dd\pmb{x}_d≌\pmb{D}_dxxxd≌DDDd
四、M-VOC 算法
- 基于流形假设,那么算法的目标是求最小化权重w\pmb{w}www (6)w∗=arg minw∣∣x−Dw∣∣22 s.t.1Tw=1\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2 ~~~~~~~s.t. \pmb{1^Tw}=1\tag{6}www∗=argwwwmin∣∣xxx−DwDwDw∣∣22 s.t.1Tw1Tw1Tw=1(6) - 如果DTD\pmb{D}^T\pmb{D}DDDTDDD是正定的,那么w\pmb{w}www可以求解为:(7)w∗=1Z(DTD)−1DTx\pmb{w}^*=\frac{1}{Z}(\pmb{D}^T\pmb{D})^{-1}\pmb{D}^T\pmb{x} \tag{7}www∗=Z1(DDDTDDD)−1DDDTxxx(7) ZZZ 是归一化因子。 公式(7)的方法被命名为M-VOC(LS)。
- 若图像块维度q1>Tq_1>Tq1>T,那么DTD\pmb{D}^T\pmb{D}DDDTDDD不是正定的,则上述方法不适用,于是在这里引入正则化项。
1)energy:为了产生更稳定的局部权重,w\pmb{w}www会受到其energy的限制。
2)稀疏性:M-VOC受到patch的邻域大小限制,若T太小,则领域不足以表征局部几何形状,相反,则会倾向不同局部几何形状的邻域。这里引入局部约束和稀疏约束来避免T的选择。
3)非负性:对w\pmb{w}www负约束可以使相似的图像块和图像密度凸组合。
4)局部性:当选取邻域重构x\pmb{x}xxx,局部性已经被隐含地假定。- 基于以上四个约束,w\pmb{w}www的优化公式可以写作:w∗=arg minw∣∣x−Dw∣∣22+λ1∣∣w∣∣22+λ2∣∣w∣∣1+λ3(w−0)\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2+\lambda_1||\pmb{w}||_2^2+\lambda_2||\pmb{w}||_1+\lambda_3(\pmb{w}-0)www∗=argwwwmin∣∣xxx−DwDwDw∣∣22+λ1∣∣www∣∣22+λ2∣∣www∣∣1+λ3(www−0) (8)s.t.1Tw=1 and λ1,λ2,λ3≥0s.t. \pmb{1^Tw}=1~~and~~\lambda_1,\lambda_2,\lambda_3\ge0 \tag{8}s.t.1Tw1Tw1Tw=1 and λ1,λ2,λ3≥0(8)第二项以低能量强制w\pmb{w}www,而第三项强制稀疏性以选择潜在候选。第四项确保w\pmb{w}www是正的。- 为了从(8)中获得更多的解,通过设置不同的λ1,λ2,λ3\lambda_1,\lambda_2,\lambda_3λ1,λ2,λ3,可以获得如下三个变量:
1)M-VOC(e)令λ2=0,λ3=0\lambda_2=0,\lambda_3=0λ2=0,λ3=0w∗=arg minw∣∣x−Dw∣∣22+λ1∣∣w∣∣22\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2+\lambda_1||\pmb{w}||_2^2www∗=argwwwmin∣∣xxx−DwDwDw∣∣22+λ1∣∣www∣∣22 (9)s.t.1Tw=1 and λ1≥0s.t. \pmb{1^Tw}=1~~and~~\lambda_1\ge0 \tag{9}s.t.1Tw1Tw1Tw=1 and λ1≥0(9) q1>Tq_1>Tq1>T,公式(9)可以优化为:(10)w∗=1Z(DTD+λ1I)−1DTx\pmb{w}^*=\frac{1}{Z}(\pmb{D}^T\pmb{D}+\lambda_1\pmb{I})^{-1}\pmb{D}^T\pmb{x} \tag{10}www∗=Z1(DDDTDDD+λ1III)−1DDDTxxx(10)2)M-VOC(s)令λ1=0,λ3=0\lambda_1=0,\lambda_3=0λ1=0,λ3=0w∗=arg minw∣∣x−Dw∣∣22+λ2∣∣w∣∣1\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2+\lambda_2||\pmb{w}||_1www∗=argwwwmin∣∣xxx−DwDwDw∣∣22+λ2∣∣www∣∣1 (11)s.t.1Tw=1 and λ2≥0s.t. \pmb{1^Tw}=1~~and~~\lambda_2\ge0 \tag{11}s.t.1Tw1Tw1Tw=1 and λ2≥0(11)可用Lasso方法优化
3) M-VOC(nn)令λ1=0,λ2=0\lambda_1=0,\lambda_2=0λ1=0,λ2=0w∗=arg minw∣∣x−Dw∣∣22+λ2∣∣w∣∣1\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2+\lambda_2||\pmb{w}||_1www∗=argwwwmin∣∣xxx−DwDwDw∣∣22+λ2∣∣www∣∣1 (12)s.t.1Tw=1 and λ2≥0s.t. \pmb{1^Tw}=1~~and~~\lambda_2\ge0 \tag{12}s.t.1Tw1Tw1Tw=1 and λ2≥0(12)
可用二次规划优化。
五、KM-VOC 算法
- 图像块包含许多变化,如形状和纹理,并且如以上部分所讨论的线性表示可能无法完全捕捉它们潜在的内在关系。本文首先将非线性映射引入到模型的局部几何建模中,然后应用核方法使其易于处理。
- 使用非线性映射,则 w∗\pmb{w}^*www∗变为:w∗=arg minw∣∣ϕ(x)−ϕ(D)w∣∣22+λ∣∣w∣∣22 \pmb{w}^* = arg\,\min_{\pmb{w}}||\phi({\pmb{x}})-\pmb{\phi{(D)}w}||_2^2+\lambda||\pmb{w}||_2^2www∗=argwwwmin∣∣ϕ(xxx)−ϕ(D)wϕ(D)wϕ(D)w∣∣22+λ∣∣www∣∣22 (14)s.t.1Tw=1 and λ≥0s.t. \pmb{1^Tw}=1~~and~~\lambda\ge0 \tag{14}s.t.1Tw1Tw1Tw=1 and λ≥0(14) 则闭式解为:(15)w∗=1Z(ϕ(D)Tϕ(D)+λI)−1ϕ(D)Tϕ(x)\pmb{w}^*=\frac{1}{Z}(\phi(\pmb{D})^T\phi(\pmb{D})+\lambda\pmb{I})^{-1}\phi(\pmb{D})^T\phi(\pmb{x}) \tag{15}www∗=Z1(ϕ(DDD)Tϕ(DDD)+λIII)−1ϕ(DDD)Tϕ(xxx)(15)
- 用核函数表示非线性映射,则公式(15)可以表示为 (16)w∗=1Z(G+λI)−1k(D,x)\pmb{w}^*=\frac{1}{Z}(\pmb{G}+\lambda\pmb{I})^{-1}k(\pmb{D,x}) \tag{16}www∗=Z1(GGG+λIII)−1k(D,xD,xD,x)(16) GGG是GRAM矩阵,Gi,j=ϕ(yit)Tϕ(yjt)G_{i,j}=\phi(\pmb{y}^t_i)^T\phi(\pmb{y}^t_j)Gi,j=ϕ(yyyit)Tϕ(yyyjt), k(D,x)k(\pmb{D,x})k(D,xD,xD,x)是核。
- 那么,xd\pmb{x}_dxxxd可以被重构为: (17)xd≌Ek(D,x)\pmb{x}_d≌\pmb{E}k(\pmb{D,x}) \tag{17}xxxd≌EEEk(D,xD,xD,x)(17) 其中E=Dd(G+λI)−1\pmb{E}=\pmb{D_d}(\pmb{G}+\lambda\pmb{I})^{-1}EEE=DdDdDd(GGG+λIII)−1,为嵌入矩阵