高级视觉之图像分类

这里所关注的问题:根据图像是否包含某个特定物体来分类图像、分类场景、分类材质
分类:提取图像(描述)特征、训练分类器(机器学习方法)、验证分类器

一、一起聊聊图像的特征提取吧!(更关注的是全局信息,而不是局部,比如布局等,所以经典的SIFT失效啦,但在构建视觉词典的时候还是能用到SIFT的)

方法一:GIST特征
32个gabor filter(8个orientation ,4 个scale),将卷积结果分为16个region,每个region求一个平均值,最终形成一个32*16=512维的特征向量,能表示梯度信息。
GIST特征常用来表示场景

方法二:visual word
图像特征由多个patch来描述,生成图像关于不同patch个数的直方图作为图像特征描述子
创建词典:由多个patch的sift描述子构成(每个patch有一个描述子),通过k-means方法,获得类型相似的patch描述子
在这里插入图片描述

生成图像的直方图:给定一个图像,提取所有特征点,特征点与其周围的像素点形成patch,特征点的sift描述子可作为patch的描述,依次与词典中patch做距离运算进行聚类,记录最近的类,为其个数加1。最终可以得到图像关于词典中特征出现个数的向量描述。
存在的问题:全局的统计信息,无法区分位置信息

Spatial pyramids 空间金字塔(构建多尺度金字塔 ,对visual word的改进)
多尺度体现在把图像分为不同个数的块(1、4、16块,在每个块上计算基于visual word的特征表示)
在这里插入图片描述
通常获取的特征向量维数太大,需要降维处理,因而引出数据降维

二、得到的特征向量太大了运算

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值