卷积神经网络:从基础到构建模块
1. 理解卷积
在图像处理和深度学习领域,卷积是一个核心概念。它本质上是一种数学运算,用于将一个核(kernel)应用到输入图像上,以实现各种图像处理功能,如模糊、锐化和边缘检测等。
1.1 卷积的定义
卷积的数学定义为:对于二维输入图像 (I) 和二维核 (K),卷积结果 (S(i, j)) 定义为 (S(i, j) = (I ⋆K)(i, j) = \sum_{m} \sum_{n} K(i−m, j −n)I(m,n))。然而,在机器学习和深度学习库中,通常使用简化的互相关函数 (S(i, j) = (I ⋆K)(i, j) = \sum_{m} \sum_{n} K(i+m, j +n)I(m,n))。这两种运算的区别仅在于访问图像 (I) 坐标时的符号变化,在应用互相关时不需要相对于输入“翻转”核。
1.2 “大矩阵”与“小矩阵”的类比
可以将图像看作一个多维矩阵,它有宽度(列数)、高度(行数)和深度(通道数)。对于标准的 RGB 图像,深度为 3,分别对应红、绿、蓝三个通道。而核或卷积矩阵则是一个小矩阵,用于执行各种图像处理功能。这个小核会在大图像上从左到右、从上到下滑动,在原始图像的每个 ((x,y)) 坐标处执行卷积运算。
常见的图像处理操作,如模糊(平均平滑、高斯平滑、中值平滑等)、边缘检测(拉普拉斯、索贝尔、沙尔、普雷维特等)和锐化,都可以通过手动定义核来实现。那么,是否有一种方法可以自动学习这些滤波器,并将其用于图像分类和目标检测呢?答案是肯定的,但在此之前,我们需要更深入地了解核和卷积。
1.3 核的特性
核通常是
超级会员免费看
订阅专栏 解锁全文
14万+

被折叠的 条评论
为什么被折叠?



