目录
二、 萌芽期(1950s-1970s):受神经科学启发的初级感知
三、 多视角几何与早期理论构建期(1970s-1990s):三维重建的数学基础
四、 统计学习与特征工程期(1990s-2010s):从“手工设计”到“数据驱动”
六、 大模型与多模态融合期(2020年至今):走向通用视觉智能
摘要
计算机视觉作为人工智能的核心领域之一,旨在赋予机器“看”和理解世界的能力。本文系统梳理了计算机视觉自20世纪50年代至今的发展历程,将其划分为五个关键阶段:萌芽期(1950s-1970s)、多视角几何与早期理论构建期(1970s-1990s)、统计学习与特征工程期(1990s-2010s)、深度学习革命期(2012年至今) 以及 大模型与多模态融合期(2020年至今)。通过对每个阶段的核心思想、关键技术、里程碑事件及局限性的分析,本文揭示了计算机视觉从简单的边缘检测到能够理解复杂场景并生成逼真内容的巨大飞跃,并对其未来发展趋势进行了展望。
关键词: 计算机视觉;深度学习;卷积神经网络;ImageNet;视觉大模型;发展历程
一、 引言:让机器“看见”与“理解”
人类感知世界的80%以上信息来源于视觉,让机器具备类似的视觉能力是人工智能的终极目标之一。计算机视觉是一门研究如何使人工系统从图像或多维数据中“感知”、“理解”并“重构”客观世界的学科。其最终目标是使机器能够像人类一样解释和处理视觉信息,从而完成各种任务。回顾其超过半个世纪的发展史,计算机视觉走过了一条从受神经科学启发的简单模型,到严谨的数学物理理论,再到数据驱动的深度学习,最终迈向通用视觉智能的波澜壮阔的道路。
二、 萌芽期(1950s-1970s):受神经科学启发的初级感知
计算机视觉的雏形可以追溯到早期的模式识别和神经科学发现。
-
核心思想: 模仿生物视觉系统的初级处理机制。
-
关键技术:
-
Hubel & Wiesel的发现(1959): 两位神经科学家发现了猫的视觉皮层中存在对特定方向的边缘敏感的神经元。这一发现直接启发了后来的边缘检测算子。
-
块世界(Blocks World)研究(1960s): Larry Roberts等人的开创性工作试图让计算机理解由简单几何体(如立方体、棱柱)构成的积木世界。他们通过提取线条、角点等特征来推理物体的三维结构。
-
边缘检测算子(1970s): 出现了如Roberts、Sobel、Prewitt等算子,通过计算图像亮度的梯度来勾勒出物体的轮廓。这是最早期且最基础的图像特征提取方法。
-
-
里程碑: David Marr于1982年出版的《Vision》一书提出了著名的视觉计算理论,将视觉信息处理分为三个层次:计算理论、表征与算法、硬件实现。该理论为整个领域建立了首个系统性的框架,影响深远。
-
局限性: 处理能力极其有限,只能应对高度简化和约束的场景(如块世界),对真实世界复杂多变的图像无能为力。

最低0.47元/天 解锁文章
1495

被折叠的 条评论
为什么被折叠?



