视觉词模型:原理、应用与发展
1. 星座模型中的视觉词共享
在星座模型里,视觉词的共享呈现出特定规律。例如,从训练集中选取的十六张图像(每个类别两张),通过黄色椭圆标记出与图像某一部分相关的视觉词。这些视觉词大多与动物图像面部的下部相关。同时,还存在对应动物侧面腿部以及物体轮子的部分,各部分都有其对应的视觉词集合。
2. 推理过程
在推理阶段,需要计算新图像数据在每个可能对象下的似然。对于新图像数据 ${f_j,x_j} {j = 1}^{J}$,在每个可能对象 $w \in {1…N}$ 下的似然计算公式为:
[
Pr(f,X|w = n) = \prod {j = 1}^{J} \sum_{m = 1}^{M} Pr(p_j = m|w = n)Pr(f_j|p_j = m)Pr(x_j|p_j = m) = \prod_{j = 1}^{J} \sum_{p_j = 1}^{M} Cat_{p_j}[\pi_n]Cat_{f_j}[\lambda_{p_j}]Norm_{x_{ij}}[\mu_{p_j},\Sigma_{p_j}]
]
接着,定义合适的先验概率 $Pr(w)$,并利用贝叶斯规则计算后验分布:
[
Pr(w = n|f,X) = \frac{Pr(f,X|w = n)Pr(w = n)}{\sum_{n = 1}^{N} Pr(f,X|w = n)Pr(w = n)}
]
3. 场景模型
星座模型存在一定局限性,它假设图像中仅包含单个对象,但实际图像通常包含多个空间偏移的对象。场景模型应运而生,场景决定了观察不同对象的相
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



