计算机视觉基础


以前对于计算机视觉的理解主要是图像的分类识别,随着了解的深入才发现除了简单的图像分类,还有图像分割、检测和跟踪等任务,借此机会简单梳理下计算机视觉的一些基础,弥补知识空白。

概念

基本概念

什么是计算机视觉?
计算机视觉是以图像(视频)为输入,以对环境的表达(representation)和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。
从目前的研究现状看,目前还主要聚焦在图像信息的组织和识别阶段,对事件解释还鲜有涉及,至少还处于非常初级的阶段。

计算机视觉和图像处理?
很多场合,人们把“图像处理”也认为是“计算机视觉”,这也是不恰当的。图像处理是一门独立的学科,图像处理研究图像去噪、图像增强等内容,输入为图像,输出也是图像。计算机视觉利用图像处理技术进行图像预处理,但图像处理本身构不成计算机视觉的核心内容。

简而言之,计算机视觉输入图像,输出表达和理解;而图像处理输入图像输出的也是图像。

基本任务

计算机视觉的研究内容,大体可以分为物体视觉(object vision) 空间视觉(spatial vision) 二大部分。物体视觉在于对物体进行精细分类和鉴别 ,而空间视觉在于确定物体的位置和形状 ,为“动作(action)” 服务。

正像著名的认知心理学家J.J. Gibson 所言,视觉的主要功能在于**“适应外界环境,控制自身运动”**。 适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。

发展

计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了4个主要历程。即: 马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉

下面主要从基于学习的角度,也就是以机器学习为朱啊哟技术手段的方法展开。

基于学习的视觉研究,文献中大体上分为二个阶段:本世纪初的以流形学习( manifold Learning)为代表的**子空间法( subspace method)和目前以深度神经网络和深度学习(deep neural networks and deep learning)**为代表的视觉方法。

(1)流行学习
流形学习理论认为,一种图像物体存在其“内在流形”(intrinsic manifold), 这种内在流形是该物体的一种优质表达。所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。
(2)深度学习
深度学习在物体视觉方面较传统方法体现了巨大优势,但在空间视觉,如三维重建,物体定位方面,仍无法与基于几何的方法相媲美。这主要是因为深度学习很难处理图像特征之间的误匹配现象。

技术

图像分类

图像——分类标签

目标检测

图像——边界框+标签

目标跟踪

图像/视频——持续的边界框

语义跟踪

实例分割

参考:

  1. 计算机视觉简介:历史、现状和发展趋势
  2. 详解计算机视觉五大技术
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值