概述
图像识别目标
让计算机将语义概念相似的图像划分为同一个类别
图像识别面临挑战
语义鸿沟现象
-
图像底层视觉特征和高级语义概念之间的鸿沟
- 不相似的视觉特征,相同的于一概念(不同视角、不同光照、不同大小)
- 相似的视觉特性,不同的语义概念
-
在深度学习之前,总是想认为设置不同的特征、尺度来更全面地表达图像。
-
深度学习回避了这个问题,很多层的神经网络,可以表示不同层的信息,完成特征的表达,比人为的设置特征更强,更精确。
图像识别基本框架
测量空间 -> 特征空间 -> 类别空间
传统方法与深度学习方法的区别
-
传统方法:设计特征
-
深度学习:学习特征
传统图像识别技术
早期图像识别技术(1990-2003)
流程:特征提取(颜色、边缘) → 索引技术 → 相关反馈 → 重排序
注: 但早期做的还是比较少,因为计算机存储、算力都达不到。
全局特征提取
图片被表示成向量。
用全局的视觉底层特性统计量表示图像。
- 颜色
- 形状
- 纹理
流程
原图片 → 向量空间映射 → 向量表示(相似度高的图片在空间中所标识的点更为接近)
特征变换
提高特征的表示性能
-
空间变换
- 相以的物体 → 距离近
- 不相似的物体 → 距离远
-
manifold learning / embedding
- 映射为低维空间下的向量表示,常用方法如 PCA、MDS、ISOMAP、LLE、Laplacian Eigenmap
-
简单特征变换
- 中心化
- 归一化
索引技术
- 穷举搜索
- 效率太低,时间复杂度太高
- 改进方式
- 牺牲精度&#