论文笔记:Fisher Kernels on Visual Vocab ularies for Image Categorization

本文是关于Fisher Vector在图像分类中的应用,重点介绍了Fisher Kernel的概念和计算过程,以及如何构建视觉词汇表。通过GMM模型表示视觉词汇,探讨了Fisher信息矩阵的闭合近似,并在实验中使用PCA和SVM进行特征降维和分类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Fisher Kernels on Visual Vocabularies for Image Categorization


论文链接:CVPR 2006
在模式分类领域,Fisher Vector(FV)是一个强有力的构架,因为他结合了生成式(概率密度函数)和判别式(分类)的优点。FV可以被理解为Bag-of-visterms的扩展。FV对于计算量的要求比较低,在一种类别上训练出来的字典可以应用到其他类别上,这样的方法在并不会产生很大的损失。

Fisher Kernel

这里写图片描述
这个似然函数能够将可变长度的X转换成具有固定长度的向量,这个向量仅仅依赖上述模型中的参数。
fisher 信息矩阵可以这样表示:
这里写图片描述
因此正则化的梯度向量可以表示为:
这里写图片描述
作者说,这个cost跟计算量和矩阵求逆相关,所以一般不会在这个地方进行normalization。(这个问题可能在2006年的时候,是个问题,现在的话(2017),应该能解决了吧)。因此这里提出了 Fλ 近似对角阵(动态范围内分维normalization),在后面可以看到使用这个矩阵可以提高task的表现。

Fisher Kernels on Visual Vocabularies

视觉词汇表使用GMM模型来表示。 X 代表从一张图片中提取的 T 个描述子(特征向量) 。 λ 代表GMM模型的参数:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值