人类的视觉系统可以将眼睛观测到的场景内的物体与背景精确地分割出来。我们的双眼和周围环境的信息(光线与阴影在物体表面呈现出来的细微模式)使我们很容易感知周围的三维世界。对于一幅合照来说,我们可以快速地区分图片中的人物性别甚至是姓名,通过人脸的面部表情分析出人物的情感变化。
感知心理学家们试图理解视觉系统的工作原理,计算机视觉领域的相关研究人员同时在研究恢复场景中物体的三维形状和外观的数学方法。目前已经实现了利用几千幅具有重叠部分的图像的结构域运动算法重建大规模复杂场景的的稀疏3D点模型(Snavely, Seitz and Szeliski, 2006 ACM)。利用立体匹配算法通过足够多的场景图像信息和利用场景信息的生成的几何信息重构出秘籍的3D点模型(Goesele, Snavely, Curless et al. 2007 IEEE)。利用图像分割等算法跟踪凌乱的场景中运动的人(Sidenblahd, Black and Fleet, 2000 Springer)。利用图像分割、人脸检测等算法与基于颜色的衣服和头发检测算法相结合识别人脸(Sivic, Zitnick and Szeliski, 2006 Springer)。尽管计算视觉在上述的几个领域有了长足的发展,如几个月之前:中国香港大学的汤晓鸥教授和他的学生开发了一种叫“高斯”的人脸识别算法首次超过了人类自身。但计算机的解释能力与相关的运算速度却远不及一个两岁大的儿童。视觉领域的问题之所以复杂,一部分原因是由于在研究相应问题是我们往往需要在信息不足的情况下试图分析一些未知量以给出问题完整的解答。由此必须引入基于物理的和基于概率的模型来消除歧义的潜在解。
计算机视觉领域采用的方法源于物理学和计算机图形学的前向模型(物体是如何运动和呈现的,光线是如何反射、散射、折射的,场景信息是如何投射到人眼或摄像机上的)。在计算机视觉领域我们试图利用一幅或多幅图像的信息来构建世界,这一过程人和动物可以快速高效地完成,而计算机视觉算法却常常受到误检率或是运行速度的限制。这是由于人类智能的认知部分要比感知部分复杂得多。
虽然计算机视觉很难,还无法与人眼相比,但目前已经广泛应用于各种实际应用中:
- OCR(光学字符识别):阅读手写的邮政编码,自动车牌号码识别(ANPR)
- 机器检测
- 零售
- 3D建模(摄影测量学)
- 医学成像
- 汽车安全
- 匹配运动(通过跟踪源视频中的特征点来估计摄像机的3D运动和环境的形状,将计算机生成的影像与实际场景中真人动作脚本相结合)
- 运动捕捉
- 监视(检测异常)
- 指纹识别
- 生物测定学