卷积神经网络:从原理到实践
卷积网络基础与面部特征识别
在图像处理中,卷积是一种强大的工具。它通过将滤波器(也称为内核,可看作带有一组权重的神经元)在输入数据上移动,每次应用滤波器到输入时,都会产生一个输出值。滤波器在计算时,可能只使用单个输入元素,也可能有更大的“足迹”,使用多个输入元素的值。
当滤波器的“足迹”大于 1x1 时,在输入数据的某些位置,滤波器会超出边缘,需要不存在的输入数据。为避免这种情况,通常会在输入周围填充足够的零环,使滤波器能够覆盖每个输入元素。
我们可以将多个滤波器组合成一个卷积层。在这样的层中,通常每个滤波器具有相同的“足迹”和激活函数,每个滤波器会产生一个通道的输出,整个卷积层的输出通道数与滤波器数量相同。
现在,我们以面部特征识别为例,看看如何使用卷积网络来处理图像。假设我们有一个 12x12 的候选图像,我们的目标是将其转换为适合特定滤波器的 3x3 网格。
-
滤波器设计
- 我们设计了三个 4x4 的滤波器,分别标记为 E4、N4 和 M4,用于检测眼睛、鼻子和嘴巴。
- 为了使系统更灵活、计算速度更快,我们进一步将每个 4x4 的滤波器看作由 2x2 的小块组成。只需要四种类型的 2x2 小块(分别标记为 T、Q、L 和 R,代表顶部、四重奏、左下角和右下角),就可以组合成这三个滤波器。
- 以眼睛滤波器 E4 为例,我们将其拆分为四个 2x2 的块。通过使用“X 射线视图”的约定,我们得到了一个新的 2x2x4 的滤波器 E,它是我们实际用于检测眼睛的滤波器。
超级会员免费看
订阅专栏 解锁全文
14万+

被折叠的 条评论
为什么被折叠?



