40、视觉词生成模型：从基础到应用

p5l2m9n4o6q

于 2025-11-11 15:38:35 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：概率驱动的视觉智能文章标签：视觉词生成模型潜在狄利克雷分配 LDA

本文链接：https://blog.youkuaiyun.com/p5l2m9n4o6q/article/details/154808717

概率驱动的视觉智能专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

视觉词生成模型：从基础到应用

在计算机视觉领域，对图像的理解和处理一直是研究的重点。本文将介绍一系列用于视觉词的生成模型，这些模型的复杂度逐渐增加，从基础的单作者 - 主题模型到更复杂的场景模型，同时还会探讨它们在实际应用中的表现。

单作者 - 主题模型

单作者 - 主题模型是对潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）模型的扩展。在这个模型中，假设每张图像中只有一个对象，对象的身份由标签 (w_i \in {1 \ldots N}) 来表征。并且，同一对象的每张图像包含相同的部分概率。

为了完善这个模型，我们为未知参数 ({\pi_n} {n = 1}^N) 和 ({\lambda_m} {m = 1}^M) 添加狄利克雷先验，其中 (\alpha = [\alpha, \alpha, \ldots, \alpha]) 和 (\beta = [\beta, \beta, \ldots, \beta])。为了简化，我们假设对象标签 (w) 的先验是均匀的。

这个模型最初用于描述文本文档，它假设每个文档由一个作者撰写（每张图像包含一个对象），这决定了主题（部分）的相对频率。它是更一般的作者 - 主题模型的一个特殊情况，后者允许每个文档有多个作者。

学习过程

学习过程与潜在狄利克雷分配模型类似。给定一组 (I) 张图像，每张图像有一个已知的对象标签 (w_i \in {1 \ldots N}) 和一组视觉词 ({f_{ij}} {j = 1}^J)，其中 (f {ij} \in {1 \ldots M})。如果我们知道与每个词相关的隐藏部分标签 (p_{ij})，就可以很容易地估计每个对象的部分概率 ({\pi_n} {n = 1}^N) 和每个部分的词概率 ({\lambda_m} {m = 1}^M)。

我们采用从部分标签的后验分布中抽取样本的方法，并使用这些样本来估计未知参数。后验通过贝叶斯规则计算：
[Pr(p|f, w) = \frac{Pr(f|p)Pr(p|w)}{Pr(f|w)}]
其中 (w = {w_i}_{i = 1}^I) 包含所有的对象标签。

由于贝叶斯规则的分母涉及对所有可能词的难以处理的求和，我们使用吉布斯采样方法，反复从每个边际后验中依次抽取样本 (p^{[1]} \ldots p^{[T]})：
[Pr(p_{ij} = m|p_{\backslash ij}, f, w) \propto Pr(f_{ij}|p_{ij} = m) \sum_{a,b \backslash i,j} \delta(p_{ab} = m)]
最后，我们使用以下关系估计未知参数：
[\pi_n^m = \frac{\sum_{i: w_i = n} \sum_{j = 1}^J \delta(p_{ij} = m)}{\sum_{i: w_i = n} J}]
[\lambda_m^k = \frac{\sum_{i = 1}^I \sum_{j: p_{ij} = m} \delta(f_{ij} = k)}{\sum_{i = 1}^I \sum_{j: p_{ij} = m} 1}]

推理过程

在推理过程中，我们使用以下公式计算新图像数据 (f = {f_j}_{j = 1}^J) 在每个可能对象 (w \in {1 \ldots N}) 下的似然：
[Pr(f|w) = \sum_p Pr(f|p)Pr(p|w)]
然后定义合适的先验 (Pr(w))，并使用贝叶斯规则计算后验分布。

星座模型

单作者 - 主题模型对对象的描述仍然很弱，因为它不包含空间信息。星座模型是一类更通用的模型，它根据一组部分及其空间关系来描述对象。

在星座模型中，我们假设部分仍然是共现词的聚类，但每个部分现在会在其关联的词上诱导出一个空间分布，我们用二维正态分布来建模：
[Pr(x_{ij}|p_{ij} = m) = \mathcal{N}(x_{ij}|\mu_m, \Sigma_m)]
其中 (x_{ij} = [x_{ij}, y_{ij}]^T) 是第 (i) 张图像中第 (j) 个词的二维位置。

我们同样为未知的分类参数定义狄利克雷先验：
[Pr(\pi) = \text{Dir}(\pi|\alpha)]
[Pr(\lambda) = \text{Dir}(\lambda|\beta)]

这个模型扩展了潜在狄利克雷分配模型，使其能够表示对象或场景部分的相对位置。例如，它可能会学习到与树相关的词通常出现在图像的中心，而与天空相关的词通常出现在图像的顶部。

学习过程

如果我们知道部分分配 (p = {p_{ij}} {i = 1, j = 1}^{I, J})，这个模型很容易学习。因此，我们从给定观察到的词标签 (f = {f {ij}} {i = 1, j = 1}^{I, J})、它们的关联位置 (X = {x {ij}} {i = 1, j = 1}^{I, J}) 和已知对象标签 (w = {w_i} {i = 1}^I) 的部分分配的后验分布 (Pr(p|f, X, w)) 中抽取样本。

后验通过贝叶斯规则计算，但分母包含指数级多个项的难以处理的求和，这意味着后验不能以封闭形式计算，但我们仍然可以评估任何特定分配 (p) 的后验概率，直到一个未知的比例因子。这足以使用吉布斯采样从分布中抽取样本。

在吉布斯采样中，我们选择一个数据示例 ({f_{ij}, x_{ij}})，并在假设所有其他部分固定的情况下从后验分布中抽取样本。计算这个后验的近似表达式为：
[Pr(p_{ij} = m|p_{\backslash ij}, f, X, w) \propto Pr(f_{ij}|p_{ij} = m) Pr(x_{ij}|p_{ij} = m) \sum_{a,b \backslash i,j} \delta(p_{ab} = m)]
在过程结束时，使用方程 20.20 中的关系计算概率，并计算部分位置。

推理过程

在推理过程中，我们使用以下公式计算新图像数据 ({f_j, x_j}_{j = 1}^J) 在每个可能对象 (w \in {1 \ldots N}) 下的似然：
[Pr(f, X|w) = \sum_p Pr(f, X|p)Pr(p|w)]
然后定义合适的先验 (Pr(w))，并使用贝叶斯规则计算后验分布。

场景模型

星座模型的一个局限性是它假设图像中只有一个对象，但实际图像通常包含多个空间偏移的对象。场景模型引入了一组新的变量来表示场景的选择 ({\theta_i}_{i = 1}^I \in {1 \ldots C})。

每个词有一个对象标签 ({w_{ij}} {i = 1, j = 1}^{I, J})，表示它对应于 (L) 个对象中的哪一个。场景标签 ({\theta_i}) 决定了每个对象出现的相对倾向，这些概率保存在分类参数 ({\theta_c} {c = 1}^C) 中。每个对象类型也有一个位置，它服从均值为 (\mu_m(w)) 和协方差为 (\Sigma_m(w)) 的正态分布。

每个对象定义了一个在 (M) 个共享部分上的概率分布，部分分配保存在标签 (p_{ij}) 中。每个部分有一个相对于对象位置测量的位置，分别具有均值 (\mu^{(p)}_m) 和协方差 (\Sigma^{(p)}_m)。

学习和推理算法的原理与星座模型相同，我们使用吉布斯采样从隐藏变量 (w_{ij}) 和 (p_{ij}) 的后验中生成一系列样本，并根据这些样本更新均值和协方差。

以下是这些模型的对比表格：
| 模型 | 空间信息 | 适用场景 | 学习方法 |
| ---- | ---- | ---- | ---- |
| 单作者 - 主题模型 | 无 | 简单对象识别 | 吉布斯采样 |
| 星座模型 | 有 | 考虑对象部分空间关系的识别 | 吉布斯采样 |
| 场景模型 | 有 | 包含多个对象的场景识别 | 吉布斯采样 |

下面是场景模型的学习和推理流程 mermaid 图：

graph TD;
    A[输入图像数据] --> B[初始化参数];
    B --> C[吉布斯采样抽取样本];
    C --> D[更新均值和协方差];
    D --> E{是否满足停止条件};
    E -- 否 --> C;
    E -- 是 --> F[输出结果];

这些模型在计算机视觉领域有着广泛的应用，我们将在下半部分详细介绍它们的具体应用案例以及相关的讨论和未来研究方向。

视觉词生成模型：从基础到应用

应用案例

在实际应用中，上述的视觉词生成模型展现出了强大的能力，下面将介绍两个具有代表性的应用系统。

Video Google

Sivic 和 Zisserman 在 2003 年提出了一个基于词袋模型的系统，该系统能够根据视觉查询高效地从电影中检索帧。具体操作步骤如下：
1. 特征定位 ：识别视频每一帧中的特征位置。与传统词袋模型不同的是，这些特征位置会在多帧视频中进行跟踪，如果无法跟踪则会被舍弃。
2. 特征表示 ：对每个跟踪的特征，使用平均 SIFT 描述符来表示其邻域内的图像内容。
3. 视觉词创建 ：使用 K - means 算法对这些描述符进行聚类，创建大约 6000 - 10000 个可能的视觉词。
4. 词分配 ：根据特征与最近聚类中心的距离，将每个特征分配到一个视觉词。
5. 图像表征 ：用一个向量来表征每个图像或区域，该向量包含每个视觉词的出现频率。
6. 查询匹配 ：当系统接收到查询时，将识别区域的向量与剩余视频流中每个潜在区域的向量进行比较，并检索最接近的区域。

为了使检索过程更加可靠，该系统还采取了以下措施：
- 词筛选 ：丢弃频率最高的 5% 和最低的 10% 的词，以消除那些不能区分帧的常见词和搜索效率低的稀有词。
- 权重计算 ：使用词频 - 逆文档频率方案对距离度量进行加权，若某个词在数据库中相对稀有且在查询区域中使用频率较高，则其权重增加。
- 空间一致性 ：如果视觉词的空间排列相似，则认为匹配更可靠，最终根据与查询的空间一致性对检索结果进行重新排序。

通过使用倒排文件结构，该系统能够在不到 0.1 秒的时间内为一部长电影可靠地返回合理的区域。

动作识别

Laptev 等人在 2008 年将词袋方法应用于视频序列中的动作识别，具体步骤如下：
1. 特征点检测 ：使用 Harris 角点检测器的时空扩展来查找视频帧中的兴趣点，并在每个点周围的多个尺度上提取描述符，同时消除镜头边界处的检测结果。
2. 描述符计算 ：为了表征局部运动和外观，计算围绕这些特征点的时空体积的基于直方图的描述符，这些描述符可以基于方向梯度直方图（HOG）描述符或局部运动直方图。
3. 聚类操作 ：使用 K - means 算法对训练数据中的 100000 个描述符子集进行聚类，创建 4000 个聚类，测试和训练数据中的每个特征都由最近聚类中心的索引表示。
4. 特征量化 ：将这些量化的特征索引在多个不同的时空窗口中进行分箱。
5. 动作分类 ：基于一对多的二元分类器做出关于动作的最终决策，该分类器分别考虑每个动作并判断其是否存在，核化二元分类器结合了两种不同特征类型和不同时空窗口的信息。

Laptev 等人首先在 KTH 数据库上进行实验，该数据库相对简单，相机静止且动作在相对空旷的背景下发生，他们在该数据库上对六种动作进行区分，平均准确率达到 91.8%，主要的混淆发生在慢跑和跑步之间。他们还在包含来自电影序列的八种不同动作的更复杂数据库上进行了实验，结果表明性能更多地依赖于 HOG 描述符而不是运动信息，这表明局部上下文提供了相当多的信息。不过，在现实场景中的动作识别仍然是计算机视觉研究中的一个开放问题。

讨论与研究方向

这些模型将每张图像视为一组离散特征，词袋模型、潜在狄利克雷分配模型和单作者 - 主题模型没有明确描述场景中对象的位置，虽然它们在对象识别方面很有效，但无法在图像中定位对象。星座模型通过允许对象的部分具有空间关系改进了这一点，而场景模型则将场景描述为一组位移部分的集合。

目前，许多应用仅使用基本的词袋方法结合判别式分类器。不过，研究人员也在不断探索改进这些模型的方法，以下是一些相关的研究方向：
- 模型变体 ：虽然本文主要讨论了视觉词的生成模型，但判别式方法通常能产生更好的性能。例如，Grauman 和 Darrell 在 2005 年引入了金字塔匹配核，它将高维特征空间中的无序数据映射到多分辨率直方图，并在该空间中计算加权直方图交集，有效地同时执行聚类和特征比较步骤，Lazebnik 等人在 2006 年将这一思想扩展到了图像的空间域。
- 管道优化 ：Yang 等人在 2007 年和 Zhang 等人在 2007 年进行了定量比较，展示了管道的各个部分（如匹配核、兴趣点检测器、聚类方法）如何影响对象识别结果。近期研究的重点是解决管道的各种弱点，如初始向量量化步骤的任意性和规则模式问题。
- 新数据库 ：为了使问题更接近现实规模，已经发布了用于对象识别和场景识别的新数据库，如 Deng 等人在 2010 年发布的对象识别数据库和 Xiao 等人在 2010 年发布的场景识别数据库。
- 动作识别进展 ：近年来，动作识别算法的测试从专门拍摄的数据库逐渐发展到电影镜头，再到完全无约束的镜头，主导方法逐渐转变为基于捕捉场景上下文和动作本身的视觉词的系统。近期在该领域的工作还涉及动作类别的无监督学习。

问题探讨

以下是一些值得深入研究的问题：
1. 判别式方法 ：本文中的词袋方法使用生成方法来建模视觉词的频率，可开发一种判别式方法，将对象类的概率建模为词频率的函数。
2. 模型证明 ：证明相关方程中的关系，如展示如何在已知部分标签的情况下学习潜在狄利克雷分配模型。
3. 模型修改 ：Li 和 Perona 在 2005 年开发了单作者 - 主题模型的替代模型，其中超参数 (\alpha) 对于对象标签 (w) 的每个值都不同，可修改潜在狄利克雷分配的图形模型以包含此更改。
4. 模型扩展 ：写出允许每个文档有多个作者的作者 - 主题模型的生成方程，并绘制相关的图形模型。
5. 模型改进 ：在实际对象中，相邻的视觉词可能具有相同的部分标签，可考虑如何修改作者 - 主题模型以鼓励附近的部分标签相同，以及这将如何影响从部分后验概率中抽取样本的吉布斯采样过程。
6. 图形模型绘制 ：绘制场景模型的图形模型。
7. 回归模型开发 ：开发一个可用于基于离散观察特征推断连续变量的生成模型（即使用视觉词的回归模型）。