《人工智能AI之计算机视觉:从像素到智能》专栏 · 模块二:核心感知(上)——2D世界的精细化理解 · 第 6 篇
朋友们好。
在上一模块,我们跨越了计算机视觉(CV)的历史长河,见证了从“手工雕刻”特征的蛮荒时代,到2012年AlexNet一声炮响,开启深度学习“创世爆炸”的壮丽征程。我们知道了,那场革命的核心引擎,就是卷积神经网络(Convolutional Neural Network,简称CNN)。
现在,我们站在了新模块的门口。如果说模块一是在高处俯瞰CV的版图,那么模块二,我们要拿着放大镜,真正走入这个精妙的“引擎”内部,拆解它的每一个零件,看看它到底是如何运转的。
作为一名在IT行业摸爬滚打了30多年的老兵,我经历过太多技术的迭代。从早年电信网管系统中复杂的信令分析,到后来银行核心系统里庞大的交易处理流水线,我见过各种各样复杂的系统架构。
但当我第一次真正看懂CNN的内部结构时,我依然感受到了一种久违的、纯粹的工程美学震撼。
你可能每天都在用手机刷脸解锁、用银行APP扫描身份证、或者在停车场入口等待车牌识别抬杆。这一切便捷背后的功臣,基本都是CNN。
你是否好奇过:
为什么传统的神经网络处理图像就不行,非得是CNN?
它里面的“卷积”、“池化”这些听起来很玄乎的词,到底在干什么?
它是怎么把一张几百万像素的照片,一层层“变魔术”般地变成一个简单的答案(比如“这是猫”)的?
今天,就让我们像拆解一台精密发动机一样,把CNN拆开揉碎,看看这个驱动当代机器视觉的“心脏”,究竟藏着怎样的智慧。
一、 师法自然:CNN的生物学灵感
在深入技术细节之前,我们先要解决一个核心问题:为什么我们需要CNN?
在CNN之前,我们已经有了经典的全连接神经网络(Multi-Layer Perceptron, MLP)。如果把一张 100x100 像素的小图片输入给MLP,会发生什么?
这张图有 100 * 100 = 10,000 个像素点。对于MLP来说,这就是1万个独立的输入信号。如果第一层隐藏层有1000个神经元,那么仅仅这一层,就需要 10000 ×1000 = 1千万个参数(权重连接)!
这还只是一张小图。如果是现在常见的 1080P 照片,参数量将是一个天文数字。这不仅计算量大到无法接受,更致命的是,这种“一锅端”的全连接方式,彻底打乱了图像的空间结构。
- 想象你在看一幅拼图。
- MLP的做法,是先把拼图彻底打散成一堆碎片,然后试图从这堆碎片里认出它原来是蒙娜丽莎。这显然不合理。
图像是有空间结构的。像素点不是孤立存在的,它和它周围的像素点有着紧密的联系(比如构成一条线、一个角)。
机器视觉的突破,源于对人类视觉的模仿。

最低0.47元/天 解锁文章
11万+

被折叠的 条评论
为什么被折叠?



