Fishe向量Fisher Vecotr(二)

最新推荐文章于 2025-02-25 15:36:52 发布

GarfieldEr007

最新推荐文章于 2025-02-25 15:36:52 发布

阅读量1.4k

点赞数

分类专栏：计算机视觉CV 文章标签： Fishe向量 Fisher Vecotr

计算机视觉CV 专栏收录该内容

327 篇文章

订阅专栏

在Fisher Vector(1)中介绍了线性核，为了满足不同的需求，实际应用中会使用多种多样的核函数，Fisher Kernel就是其中的一种。

Fisher Kernel

此时仍旧对于一个（1,−1）的二分类问题，我们要学习

P (x, y) = P (x | y) P (y)

因为 Alt text

故 P(x,y)=P(x|y)P(y)=P(X|θy)P(y) 。

则 Alt text

若 P(y)=P(y¯) ，那么上式可写为

P (y | x) = σ (l n P (x | θ y ¯) - l n P (x | θ y))

对 lnP(x|θy) 做一阶泰勒展开，有

l n P (x | θ y) \approx l n P (x | θ) + (θ y - θ) l n' P (x | θ)

相应的有

l n P (x | θ y ¯) \approx l n P (x | θ) + (θ y ¯ - θ) l n' P (x | θ)

将这两个展开式带入上式:

P (y | x) = σ ((θ y - θ y ¯) l n' P (x | θ))

令 Ux=ln′P(x|θ)=∂∂θlnP(x|θ) ，这就是Fisher Score. 故

P (y | x) = σ ((θ y - θ y ¯) U x) = σ ((θ 1 - θ - 1) U x)

这里引入一个Kullback–Leibler divergence的概念，也叫做相对熵，这个值通常用来计算两个分布之间的距离，比如 θ1和θ−1 之间的距离为:

D K L (θ 1 | | θ - 1) = \int \infty - \infty P (x | θ 1) l n P ( x | θ 1 ) P ( x | θ - 1 ) d x

而

\int \infty - \infty P (x | θ) \partial \partial θ l n P (x | θ) d x = \int \infty - \infty P (x | θ) \partial \partial θ P ( x | θ ) P ( x | θ ) d x = \partial \partial θ \int \infty - \infty P (x | θ) d x = 0

根据上面的一阶展开式可知如果做一阶展开相对熵为 0 ,故对 lnP(x|θ1)在θ−1 处进行二阶展开

l n P (x | θ 1) \approx l n P (x | θ - 1) + (θ 1 - θ - 1) l n' P (x | θ - 1) + ( θ 1 - θ - 1 ) 2 \partial 2 l n p ( x | θ - 1 ) 2 \partial θ - 1

故

D K L (θ 1 | | θ - 1) = \int \infty - \infty P (x | θ 1) l n P ( x | θ 1 ) P ( x | θ - 1 ) d x = \int \infty - \infty P (x | θ 1) l n P (x | θ 1) - P (x | θ 1) l n P (x | θ - 1) d x = \int \infty - \infty P (x | θ 1) ((θ 1 - θ - 1) l n' P (x | θ - 1) + \partial 2 l n p ( x | θ - 1 ) 2 \partial θ - 1 (θ 1 - θ - 1) 2 d x

假设 Alt text ，故所以

D K L (θ 1 | | θ - 1) = (θ 1 - θ - 1) 2 \int \infty - \infty P (x | θ 1) \partial 2 l n p ( x | θ - 1 ) 2 \partial θ - 1 d x

这里再引入Fisher信息矩阵 I(θ)=∫P(x|θ)∂2∂θlnP(x|θ)2dx ，故

D K L (θ 1 | | θ - 1) = (θ 1 - θ - 1) 2 I (θ 1)

（这一段我也不是很明白π__π，可以看看维基百科）根据相对熵可以对 θ 指定一个先验分布，可以看出，当 θ1和θ1 相当接近的时候，相对熵较小，因而概率较大（这点是原博说的，没看明白)。可以定义

P (θ) = e (θ 1 - θ - 1) 2 I (θ)

这时就可以根据最大后验概率来计算 θ ，类似的，最终可以得到

P (y ∣ x) = σ (\sum i = 1 N λ i (U T X i I - 1 U X)))

与线性核函数类似，这里令 K(Xi,X)=UTXiI−1UX ，称为Fisher Kernel。

说了这么多，终于到重点了，可以看出Fisher Kernel将原特征 x 通 Ux=∂∂θlnP(x|θ) 映射到另一个空间，映射后得到的Fisher score也就是Fisher Vector。很多文献介绍Fisher Vector的时候都直接给了计算公式，然后说似然函数的参数的变化非常有判别性所以用作特征。我个人认为与其这么理解，还不如把Fisher Vector看作一种映射或者变换比较简单。

别忘了，前文提到Fisher Vector通常和高斯混合模型搭配使用，一般流程是:

Alt text

所以当给定训练集特征 x1,x2,..,xm∈Rd ，先训练高斯混合模型，得到参数

θ = (μ k, σ k, π k) k = 1, . . ., K

p (x | θ) = \sum k = 1 K π k p (x | μ k, σ k)

下一步利用 Ux=∂∂θlnP(x|θ) ，分别计算对三个参数求导，并将结果串联，得到

(\partial \partial μ k l n P (x | θ), \partial \partial σ k l n P (x | θ), \partial \partial π k l n P (x | θ)) k = 1, . . . K

这个 2K(d+1) 维的向量就是最终的特征，有的时候不计算 ∂∂πklnP(x|θ) ，最终的特征就是 2Kd 维。

from: http://bucktoothsir.github.io/blog/2014/11/27/10-theblog/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。