计算机视觉基础

最新推荐文章于 2025-10-03 22:52:27 发布

原创最新推荐文章于 2025-10-03 22:52:27 发布 · 932 阅读

2 ·

CC 4.0 BY-SA版权

深度学习（DL）同时被 2 个专栏收录

24 篇文章

订阅专栏

计算机视觉(CV)

6 篇文章

订阅专栏

计算机视觉基础

概念
技术

以前对于计算机视觉的理解主要是图像的分类识别，随着了解的深入才发现除了简单的图像分类，还有图像分割、检测和跟踪等任务，借此机会简单梳理下计算机视觉的一些基础，弥补知识空白。

概念

基本概念

什么是计算机视觉？
计算机视觉是以图像（视频）为输入，以对环境的表达（representation）和理解为目标，研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。
从目前的研究现状看，目前还主要聚焦在图像信息的组织和识别阶段，对事件解释还鲜有涉及，至少还处于非常初级的阶段。

计算机视觉和图像处理？
很多场合，人们把“图像处理”也认为是“计算机视觉”，这也是不恰当的。图像处理是一门独立的学科，图像处理研究图像去噪、图像增强等内容，输入为图像，输出也是图像。计算机视觉利用图像处理技术进行图像预处理，但图像处理本身构不成计算机视觉的核心内容。

简而言之，计算机视觉输入图像，输出表达和理解；而图像处理输入图像输出的也是图像。

基本任务

计算机视觉的研究内容，大体可以分为物体视觉（object vision） 和空间视觉（spatial vision） 二大部分。物体视觉在于对物体进行精细分类和鉴别 ，而空间视觉在于确定物体的位置和形状 ，为“动作（action）” 服务。

正像著名的认知心理学家J.J. Gibson 所言，视觉的主要功能在于**“适应外界环境，控制自身运动”**。适应外界环境和控制自身运动，是生物生存的需求，这些功能的实现需要靠物体视觉和空间视觉协调完成。

发展

计算机视觉40多年的发展中，尽管人们提出了大量的理论和方法，但总体上说，计算机视觉经历了4个主要历程。即： 马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉。

下面主要从基于学习的角度，也就是以机器学习为朱啊哟技术手段的方法展开。

基于学习的视觉研究，文献中大体上分为二个阶段：本世纪初的以流形学习( manifold Learning)为代表的**子空间法( subspace method)和目前以深度神经网络和深度学习（deep neural networks and deep learning）**为代表的视觉方法。

（1）流行学习
流形学习理论认为，一种图像物体存在其“内在流形”（intrinsic manifold）, 这种内在流形是该物体的一种优质表达。所以，流形学习就是从图像表达学习其内在流形表达的过程，这种内在流形的学习过程一般是一种非线性优化过程。
（2）深度学习
深度学习在物体视觉方面较传统方法体现了巨大优势，但在空间视觉，如三维重建，物体定位方面，仍无法与基于几何的方法相媲美。这主要是因为深度学习很难处理图像特征之间的误匹配现象。