背景:YouTube每秒有5小时的视频被上传,需要正确分类。
CV历史:
生物视觉:5亿4千万年前,寒武纪时期物种大爆发,眼睛进化出来。
机器视觉:
- 17世纪文艺复兴时期,小孔成像相机出现。
- 50-60年代,Hubel和Wiesel研究猫的视觉系统,将物体由简单几何形状表示。
- 1999年,SIFT目标识别。
- 2005年,HOG直方图特征。
数据集:
- PASCAL,2006-2012
- ImageNet,2009-至今
1、图像分类
图像分类、目标检测、图像摘要生成。
分类模型:
2、1998年数字识别
输入图像:32×32
卷积核:5×5(也叫滤波器)
池化核:2×2,步长:2,类型:MAX
卷积训练参数量:6×(5×5+1)
全连接层:120×(5×5×16+1)=48120,84×(120+1)= 10164
6×(3×5×5+1)+6×(4×5×5+1)+3×(4×5×5+1)+1×(6×5×5+1)
3、应用领域
- 语义分割
- 姿态识别
- 3D重建
- 图像理解
应用:医学诊断、自动驾驶、机器人。