以前对于计算机视觉的理解主要是图像的分类识别,随着了解的深入才发现除了简单的图像分类,还有图像分割、检测和跟踪等任务,借此机会简单梳理下计算机视觉的一些基础,弥补知识空白。
概念
基本概念
什么是计算机视觉?
计算机视觉是以图像(视频)为输入,以对环境的表达(representation)和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。
从目前的研究现状看,目前还主要聚焦在图像信息的组织和识别阶段,对事件解释还鲜有涉及,至少还处于非常初级的阶段。
计算机视觉和图像处理?
很多场合,人们把“图像处理”也认为是“计算机视觉”,这也是不恰当的。图像处理是一门独立的学科,图像处理研究图像去噪、图像增强等内容,输入为图像,输出也是图像。计算机视觉利用图像处理技术进行图像预处理,但图像处理本身构不成计算机视觉的核心内容。
简而言之,计算机视觉输入图像,输出表达和理解;而图像处理输入图像输出的也是图像。
基本任务
计算机视觉的研究内容,大体可以分为物体视觉(object vision) 和空间视觉(spatial vision) 二大部分。物体视觉在于对物体进行精细分类和鉴别 ,而空间视觉在于确定物体的位置和形状 ,为“动作(action)” 服务。
正像著名的认知心理学家J.J. Gibson 所言,视觉的主要功能在于**“适应外界环境,控制自身运动”**。 适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。
发展
计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了4个主要历程。即: 马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉。
下面主要从基于学习的角度,也就是以机器学习为朱啊哟技术手段的方法展开。
基于学习的视觉研究,文献中大体上分为二个阶段:本世纪初的以流形学习( manifold Learning)为代表的**子空间法( subspace method)和目前以深度神经网络和深度学习(deep neural networks and deep learning)**为代表的视觉方法。
(1)流行学习
流形学习理论认为,一种图像物体存在其“内在流形”(intrinsic manifold), 这种内在流形是该物体的一种优质表达。所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。
(2)深度学习
深度学习在物体视觉方面较传统方法体现了巨大优势,但在空间视觉,如三维重建,物体定位方面,仍无法与基于几何的方法相媲美。这主要是因为深度学习很难处理图像特征之间的误匹配现象。
技术
图像分类
图像——分类标签
目标检测
图像——边界框+标签
目标跟踪
图像/视频——持续的边界框
语义跟踪
实例分割
参考:

844

被折叠的 条评论
为什么被折叠?



