计算机视觉中的深度学习2: 图片分类
Slides:百度云 提取码: gs3n
计算机与人眼的区别
对于一张灰度图片,计算机能看到的是像素大小的0~255的灰度值;对于RGB图片,则是一张像素大小的3通道矩阵,即800x600x3。
计算机视觉的挑战
- 视角变化的挑战
- 视角的变化带来的像素的变化是非常巨大的。
- 在不同的角度拍摄一只猫,人类很容易分辨这是同一种猫,而像素的变化却非常巨大,只有设计出了更加完备的算法才能让计算机程序更稳定地运行。
- 图片交叉的挑战
- 多只猫会重叠在一起。
- 粒度更细的分类
- 我们不仅仅需要分辨这是猫,我们还要分辨这是哪一个品种的猫。
- 杂乱的背景的影响
- 光线的变化
- 形状的变化
图片分类的作用
- 用在别的计算机视觉应用中
- Object detection
- Image captioning
图片分类的算法
- 传统计算机视觉算法
- 检测边缘,检测夹角等等
- 缺点:不够通用,当我们输入了一个非常复杂的算法能够识别猫了,同样的算法没法解决一个识别狗的问题。
- 机器学习方法
- 依赖数据源和分