Pytorch 学习 - 9.池化层

chenchihwen

已于 2024-10-13 20:18:48 修改

阅读量841

点赞数 25

CC 4.0 BY-SA版权

文章标签： pytorch 学习人工智能

于 2024-10-13 19:53:30 首次发布

本文链接：https://blog.youkuaiyun.com/chenchihwen/article/details/142902071

先掌握pytorch，学好pytorch, 才能学好人工智能

名词解释

在卷积神经网络中，池化层（Pooling Layer）是一种重要的层，主要用于减少特征图的空间尺寸，从而降低计算量、减少过拟合风险并提取更抽象的特征。

一、主要类型

最大池化（Max Pooling）：
- 原理：对于给定的输入区域，取该区域中的最大值作为输出。
- 示例：假设有一个 2x2 的输入区域 [[1, 3], [4, 2]]，经过最大池化后，输出为 4，因为 4 是这个区域中的最大值。
- 优点：能够提取输入特征中的最显著特征，对输入的微小变化具有一定的鲁棒性。
- 应用场景：常用于图像识别等任务中，帮助提取图像中的关键特征，如物体的边缘和纹理。
- nn.MaxPool2d是用于执行二维最大池化操作的类。
nn.MaxPool2d（）
1. kernel_size：池化窗口的大小，可以是一个整数表示正方形窗口的边长，也可以是一个元组(h, w)表示高度和宽度不同的窗口。
2. stride：池化窗口的移动步长，可以是一个整数或一个元组。默认值与kernel_size相同。
3. padding：在输入特征图的边缘填充的大小，可以是一个整数或一个元组。默认值为 0。
4. dilation：控制池化窗口中元素之间的间隔。默认值为 1。
5. return_indices：如果为True，则在输出中同时返回最大池化的索引，以便在反向传播时使用。默认值为False。
6. ceil_mode：如果为True，则在计算输出形状时使用向上取整的方式。默认值为False。
平均池化（Average Pooling）：
- 原理：对于给定的输入区域，计算该区域中所有元素的平均值作为输出。
- 示例：对于同样的 2x2 输入区域 [[1, 3], [4, 2]]，平均池化的输出为 (1 + 3 + 4 + 2) / 4 = 2.5。
- 优点：能够平滑输入特征，减少噪声的影响。
- 应用场景：在一些对特征的细节要求不高，但需要整体特征分布信息的任务中使用。

二、工作原理

定义池化窗口大小和步长：池化窗口大小决定了在输入特征图上进行池化操作的区域大小，步长则决定了池化窗口在特征图上移动的步长。
对于输入特征图的每个局部区域：根据选择的池化类型（最大池化或平均池化），计算该区域的输出值。
移动池化窗口：按照指定的步长在输入特征图上移动池化窗口，重复上述计算过程，直到覆盖整个输入特征图。
输出池化后的特征图：得到的输出特征图具有较小的空间尺寸，但其通道数与输入特征图相同。

三、示例代码（使用 PyTorch）

import torch
import torch.nn as nn

# 创建一个随机的输入张量，模拟一批图像数据
input_tensor = torch.randn(1, 1, 6, 6)  # 10 个样本，3 个通道，32x32 的图像

# 创建一个最大池化层，池化窗口大小为 2x2，步长为 2
max_pooling_layer = nn.MaxPool2d(kernel_size=2, stride=2)

# 进行最大池化操作
output_tensor = max_pooling_layer(input_tensor)

print("输入张量形状：", input_tensor.shape,'\n',input_tensor)
print("输出张量形状：", output_tensor.shape,'\n',output_tensor)

输入张量形状： torch.Size([1, 1, 6, 6])
tensor([[[[ 0.7320, -0.3467, -0.5123, 0.7735, 0.6103, -0.3634],
[-0.8857, 0.5780, 1.0406, -1.2412, -0.5372, -0.3001],
[-0.0031, -1.8927, -0.5512, -0.5447, 1.7222, 0.4482],
[-0.2469, -0.6893, -0.4641, -0.5763, 0.2286, -0.3046],
[ 1.3857, -1.6815, 0.0033, 0.3869, -0.5434, -0.1872],
[-1.4781, 0.7636, -0.6097, -0.4940, 0.8731, -1.1030]]]])
输出张量形状： torch.Size([1, 1, 3, 3])
tensor([[[[ 0.7320, 1.0406, 0.6103],
[-0.0031, -0.4641, 1.7222],
[ 1.3857, 0.3869, 0.8731]]]])

在这个示例中，我们首先创建了一个随机的输入张量，然后创建了一个最大池化层，并对输入张量进行最大池化操作。最后，我们打印出输入和输出张量的形状，可以看到输出张量的空间尺寸减小了一半。

四、作用和意义

降低计算量：通过减少特征图的空间尺寸，池化层可以显著降低后续层的计算量，特别是在处理大规模图像数据时，这对于提高模型的训练和推理效率非常重要。
减少过拟合风险：较小的特征图意味着更少的参数，从而降低了模型过拟合的风险。池化层可以帮助模型学习更抽象、更具代表性的特征，提高模型的泛化能力。
提取抽象特征：池化层可以提取输入特征中的不变特征，例如物体的形状、纹理等，而不依赖于具体的位置信息。这使得模型能够对不同位置的相同特征进行识别，提高模型的鲁棒性。