计算机视觉的发展历程：从边缘检测到视觉大模型的演进

原创

已于 2025-10-13 08:29:51 修改 · 802 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #人工智能

于 2025-10-13 07:56:08 首次发布

目录

一、引言：让机器“看见”与“理解”

二、萌芽期（1950s-1970s）：受神经科学启发的初级感知

三、多视角几何与早期理论构建期（1970s-1990s）：三维重建的数学基础

四、统计学习与特征工程期（1990s-2010s）：从“手工设计”到“数据驱动”

五、深度学习革命期（2012年至今）：端到端学习的崛起

六、大模型与多模态融合期（2020年至今）：走向通用视觉智能

七、结论与展望

摘要
计算机视觉作为人工智能的核心领域之一，旨在赋予机器“看”和理解世界的能力。本文系统梳理了计算机视觉自20世纪50年代至今的发展历程，将其划分为五个关键阶段：萌芽期（1950s-1970s）、多视角几何与早期理论构建期（1970s-1990s）、统计学习与特征工程期（1990s-2010s）、深度学习革命期（2012年至今） 以及 大模型与多模态融合期（2020年至今）。通过对每个阶段的核心思想、关键技术、里程碑事件及局限性的分析，本文揭示了计算机视觉从简单的边缘检测到能够理解复杂场景并生成逼真内容的巨大飞跃，并对其未来发展趋势进行了展望。

关键词： 计算机视觉；深度学习；卷积神经网络；ImageNet；视觉大模型；发展历程

一、引言：让机器“看见”与“理解”

人类感知世界的80%以上信息来源于视觉，让机器具备类似的视觉能力是人工智能的终极目标之一。计算机视觉是一门研究如何使人工系统从图像或多维数据中“感知”、“理解”并“重构”客观世界的学科。其最终目标是使机器能够像人类一样解释和处理视觉信息，从而完成各种任务。回顾其超过半个世纪的发展史，计算机视觉走过了一条从受神经科学启发的简单模型，到严谨的数学物理理论，再到数据驱动的深度学习，最终迈向通用视觉智能的波澜壮阔的道路。

二、萌芽期（1950s-1970s）：受神经科学启发的初级感知

计算机视觉的雏形可以追溯到早期的模式识别和神经科学发现。

核心思想： 模仿生物视觉系统的初级处理机制。
关键技术：
- Hubel & Wiesel的发现（1959）： 两位神经科学家发现了猫的视觉皮层中存在对特定方向的边缘敏感的神经元。这一发现直接启发了后来的边缘检测算子。
- 块世界（Blocks World）研究（1960s）： Larry Roberts等人的开创性工作试图让计算机理解由简单几何体（如立方体、棱柱）构成的积木世界。他们通过提取线条、角点等特征来推理物体的三维结构。
- 边缘检测算子（1970s）： 出现了如Roberts、Sobel、Prewitt等算子，通过计算图像亮度的梯度来勾勒出物体的轮廓。这是最早期且最基础的图像特征提取方法。
里程碑： David Marr于1982年出版的《Vision》一书提出了著名的视觉计算理论，将视觉信息处理分为三个层次：计算理论、表征与算法、硬件实现。该理论为整个领域建立了首个系统性的框架，影响深远。
局限性： 处理能力极其有限，只能应对高度简化和约束的场景（如块世界），对真实世界复杂多变的图像无能为力。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

交通上的硅基思维 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。