卷积神经网络深入解析
1. 卷积与特征检测
在图像处理中,卷积操作是一种强大的工具。当我们将一个滤波器应用于图像时,通常会将滤波器在图像上滑动,并在每个位置进行计算。例如,当使用一个滤波器处理图像时,如果滤波器完全位于图像之上,输出图像的尺寸会相应变化。假设输入是一个较大的图像,使用特定滤波器后,输出图像可能变为 5×5 的大小。
从生物学角度看,蟾蜍视觉系统中的某些细胞对特定视觉模式敏感。蟾蜍的眼睛并非简单地将所有光线信息传递给大脑,眼睛中的细胞会先进行一些检测工作,比如寻找边缘等特征,只有当它们“认为”看到猎物时才会将信息传递给大脑。这一理论也被延伸到人类视觉系统,有研究发现人类某些神经元会对特定人物的图片做出反应。虽然这种观点并非被所有人接受,但它为我们提供了灵感。
在卷积操作中,我们可以使用滤波器来模拟蟾蜍眼睛中的细胞。滤波器能够挑选出特定模式,并将结果传递给后续寻找更大模式的滤波器。这里涉及到一些术语,“特征”既可以指样本中的一个值,在卷积情境下,也指滤波器试图检测的输入中的特定结构,如边缘、羽毛或鳞片皮肤等。滤波器有时也被称为特征检测器,当特征检测器扫过整个输入后,其输出就是特征图,它逐像素地告诉我们该像素周围的图像与滤波器寻找的模式匹配程度。
下面通过一个例子来看特征检测是如何工作的。在一个二维模式匹配的例子中,使用一个 3×3 的滤波器(值为 -1 代表黑色,1 代表白色)来处理一个仅由黑白像素组成的噪声输入图像。
- 首先,将滤波器应用于输入图像的每个像素(除最外层边界),得到的特征图值范围从 -6 到 +3,为了显示方便将其缩放至 [0, 1]。值越大,说明滤波器与该像素及其邻域的匹配度越好,值为 +3 表示滤波器在该像素处与图像
超级会员免费看
订阅专栏 解锁全文
14万+

被折叠的 条评论
为什么被折叠?



