PyTorch深度学习教程：理解卷积与自动微分引擎-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00449/article/details/148465480

PyTorch深度学习教程：理解卷积与自动微分引擎

NYU-DLSP20 NYU Deep Learning Spring 2020 项目地址: https://gitcode.com/gh_mirrors/pyt/pytorch-Deep-Learning

一维卷积原理与应用

卷积操作是深度学习中处理数据稀疏性、平稳性和组合性的核心工具。让我们从一个简单的一维卷积开始理解其工作原理。

基本概念

假设我们有一个大小为n的输入向量，使用大小为k的卷积核进行处理。不同于传统全连接层的矩阵乘法，卷积操作通过以下方式实现：

将卷积核作为滑动窗口在输入上移动
每个位置计算点积
使用m个不同的卷积核会生成m个输出通道

这种操作会产生m个大小为n-k+1的输出向量。对于单通道输入（如单声道音频信号），我们可以将其视为一个从自然数到实数的映射函数。

数学表示

输入信号x可以表示为： $$ x:\Omega\rightarrow\mathbb{R}^{c} $$ 其中$\Omega$是1维自然数集，c表示通道数（c=1为单声道，c=2为立体声）。

实际计算过程

每个卷积核与输入信号的局部区域进行点积运算，通过滑动窗口方式覆盖整个输入。这种计算方式具有以下特点：

参数共享：同一个卷积核在不同位置重复使用
局部连接：每个输出只与局部输入相关
平移不变性：相同模式在不同位置会被相同检测

PyTorch中的卷积维度详解

一维卷积实现

在PyTorch中，nn.Conv1d实现一维卷积，关键参数包括：

in_channels：输入通道数
out_channels：输出通道数（卷积核数量）
kernel_size：卷积核大小
stride：滑动步长
padding：边界填充

示例代码：

conv = nn.Conv1d(2, 16, 3)  # 2输入通道，16个卷积核，大小3
x = torch.rand(1, 2, 64)     # 批量1，2通道，64长度
conv(x).size()               # 输出[1, 16, 62]

二维卷积扩展

二维卷积处理如图像数据，增加了高度和宽度维度。关键区别在于：

卷积核变为二维（如3×5）
输出尺寸计算考虑两个维度

示例代码：

x = torch.rand(1, 20, 64, 128)    # 1样本，20通道，64高，128宽
conv = nn.Conv2d(20, 16, (3,5))   # 20输入通道，16卷积核，3×5大小
conv(x).size()                    # 输出[1, 16, 62, 124]

使用padding可以保持输入输出尺寸一致：

conv = nn.Conv2d(20, 16, (3,5), padding=(1,2))
conv(x).size()  # 输出[1, 16, 64, 128] 保持原尺寸

自动微分引擎原理

PyTorch的自动微分是其核心特性，理解其工作原理对调试和自定义操作至关重要。

基本示例

考虑一个简单计算图：

创建2×2张量x，启用梯度追踪
计算y = x - 2
计算z = 3y²
计算a = mean(z)

反向传播时，PyTorch会自动计算梯度da/dx。手动验证这一过程：

$$ \frac{da}{dx_i} = \frac{3}{2}x_i - 3 $$

计算结果与PyTorch的自动微分结果一致。

动态计算图

PyTorch支持动态计算图，即使在循环和条件语句中也能正确计算梯度：

x = torch.randn(3, requires_grad=True)
y = x * 2
i = 0
while y.data.norm() < 1000:
    y = y * 2
    i += 1

即使迭代次数不确定，仍能正确计算梯度。

梯度控制

requires_grad=True：启用梯度追踪
torch.no_grad()：临时禁用梯度计算
detach()：从计算图中分离张量

自定义梯度函数

PyTorch允许创建自定义操作并定义其梯度计算规则，这对于实现特殊层或研究新算法非常有用。

基本结构

自定义函数需要继承torch.autograd.Function并实现两个静态方法：

class MyAdd(torch.autograd.Function):
    @staticmethod
    def forward(ctx, x1, x2):
        ctx.save_for_backward(x1, x2)
        return x1 + x2
        
    @staticmethod
    def backward(ctx, grad_output):
        x1, x2 = ctx.saved_tensors
        return grad_output * torch.ones_like(x1), grad_output * torch.ones_like(x2)