卷积层原理与实践：从D2L项目理解图像卷积操作-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00948/article/details/148361389

卷积层原理与实践：从D2L项目理解图像卷积操作

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

引言

卷积神经网络(CNN)是计算机视觉领域最重要的架构之一，而卷积层则是CNN的核心组成部分。本文将从理论到实践，深入解析卷积层的工作原理，帮助读者掌握这一关键技术。

交叉相关运算的本质

严格来说，卷积层执行的是**交叉相关(cross-correlation)**运算而非数学定义中的卷积运算。两者区别仅在于卷积运算需要将核翻转180度，而交叉相关则不需要。但在深度学习中，由于核参数是从数据中学习得到的，这种翻转操作变得无关紧要。

二维交叉相关运算示例

考虑一个3×3的输入张量X和2×2的核张量K：

X = [[0, 1, 2],
     [3, 4, 5], 
     [6, 7, 8]]
     
K = [[0, 1],
     [2, 3]]

交叉相关运算过程如下：

将核窗口置于输入张量左上角
计算对应元素乘积之和：0×0 + 1×1 + 3×2 + 4×3 = 19
向右滑动窗口继续计算
完成第一行后向下移动一行

最终得到2×2的输出张量：

[[19, 25],
 [37, 43]]

输出尺寸计算

对于输入尺寸$n_h × n_w$和核尺寸$k_h × k_w$，输出尺寸为： $$(n_h - k_h + 1) × (n_w - k_w + 1)$$

实现卷积层

基于交叉相关运算，我们可以构建一个完整的卷积层：

class Conv2D(nn.Module):
    def __init__(self, kernel_size):
        super().__init__()
        self.weight = nn.Parameter(torch.rand(kernel_size))
        self.bias = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        return corr2d(x, self.weight) + self.bias

这个实现包含两个可学习参数：

weight：卷积核参数
bias：偏置项

实际应用：边缘检测

让我们通过一个实际例子理解卷积层的工作原理。考虑一个6×8的图像，中间4列为黑色(0)，其余为白色(1)：

X = [[1,1,0,0,0,0,1,1],
     [1,1,0,0,0,0,1,1],
     ... 
     [1,1,0,0,0,0,1,1]]

使用核K = [1, -1]进行边缘检测：

白到黑边缘输出1
黑到白边缘输出-1
其他区域输出0

Y = corr2d(X, K)

输出结果验证了我们的理论预期。

从数据中学习卷积核

更有趣的是，我们可以让神经网络自动学习合适的卷积核。通过定义损失函数并反向传播，网络能够学习到与手动设计的边缘检测核相似的参数：

# 训练过程
for i in range(10):
    Y_hat = conv2d(X)
    l = (Y_hat - Y) ** 2  # 平方误差
    conv2d.zero_grad()
    l.sum().backward()
    # 更新核参数
    conv2d.weight.data[:] -= lr * conv2d.weight.grad

经过训练后，学习到的核接近我们手动设计的[1, -1]边缘检测器。