pytorch中的池化函数

PyTorch深度学习中的池化函数详解

原创

已于 2023-10-14 17:35:49 修改 · 5.5k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch

于 2023-10-13 20:20:27 首次发布

本文详细介绍了PyTorch中的一维、二维和三维平均池化、最大池化以及自适应池化的实现及其在深度学习中的应用。重点讲解了nn.AvgPool、nn.MaxPool和AdaptivePooling系列函数的使用方法和各自在特征提取、降维中的作用。

PyTorch 提供了多种池化函数，用于对输入数据进行不同类型的池化操作。以下是一些常用的 PyTorch 池化函数：

平均池化（Average Pooling）:
- nn.AvgPool1d: 一维平均池化。
- nn.AvgPool2d: 二维平均池化。
- nn.AvgPool3d: 三维平均池化。
最大池化（Max Pooling）:
- nn.MaxPool1d: 一维最大池化。
- nn.MaxPool2d: 二维最大池化。
- nn.MaxPool3d: 三维最大池化。
全局池化（Global Pooling）:
- nn.AdaptiveAvgPool1d: 自适应一维平均池化，用于将整个输入降维为指定大小。
- nn.AdaptiveAvgPool2d: 自适应二维平均池化，用于将整个输入降维为指定大小。
- nn.AdaptiveAvgPool3d: 自适应三维平均池化，用于将整个输入降维为指定大小。
- nn.AdaptiveMaxPool1d: 自适应一维最大池化，用于将整个输入降维为指定大小。
- nn.AdaptiveMaxPool2d: 自适应二维最大池化，用于将整个输入降维为指定大小。
- nn.AdaptiveMaxPool3d: 自适应三维最大池化，用于将整个输入降维为指定大小。

这些池化函数允许你对不同维度的输入数据进行平均池化或最大池化，并且有自适应版本，可以自动调整输入大小以满足指定的输出大小。选择适当的池化函数取决于你的应用和输入数据的维度。

一.池化层的作用

不同类型的池化层在深度学习中具有不同的作用，它们通常用于特征提取、降维和提高模型的鲁棒性。以下是不同池化层的作用：

平均池化（Average Pooling）：
- 作用：平均池化层计算池化区域内元素的平均值，并将结果作为输出。它有助于减少特征图的尺寸，同时保留一定程度的特征信息。
- 用途：常用于图像分类和一些简单的特征提取任务。
最大池化（Max Pooling）：
- 作用：最大池化层计算池化区域内元素的最大值，并将最大值作为输出。它有助于保留图像中的主要特征，提高对平移和小尺度变化的鲁棒性。
- 用途：常用于图像分类、物体检测和卷积神经网络中的特征提取。
全局池化（Global Pooling）：
- 作用：全局池化层通过对整个特征图进行池化操作，将特征图降维为一个单一的值或向量。它有助于捕获全局特征，减少模型参数。
- 用途：常用于图像分类任务，用于将卷积特征映射到分类层之前。
自适应池化（Adaptive Pooling）：
- 作用：自适应池化层根据指定的输出大小，动态调整池化核的大小以适应不同尺寸的输入特征图。这使得它能够处理不同大小的输入。
- 用途：常用于需要对输入尺寸不敏感的任务，如图像分类、目标检测和分割。

总之，不同池化层在深度学习中的作用是对输入特征进行不同的处理和降维操作，以提取重要信息并减少模型的计算复杂性。选择合适的池化层取决于你的任务和输入数据的性质。最大池化常用于特征提取，全局池化用于全局特征捕获，自适应池化用于处理不同尺寸的输入。

以下是各种池化函数的示例用法，包括一维、二维和自适应池化。示例中的输入数据和参数可能需要根据你的具体情况进行调整。

二.池化层的pytorch实现

1.平均池化（Average Pooling）pytorch实现

（1）一维平均池化（nn.AvgPool1d）

不同池化函数的构造方式在 PyTorch 中基本相似，它们都是基于 nn.Module 类的子类，并具有一些特定的参数。这些池化函数的构造函数通常需要指定池化核的大小 (kernel_size)，步幅 (stride) 和填充 (padding)，以控制池化操作的行为。对于自适应池化，你需要指定目标输出大小 (output_size)，而不需要手动设置核大小和步幅。

函数构成：

avg_pool = nn.AvgPool1d(kernel_size, stride, padding)

示例：

import torch
import torch.nn as nn

# 创建一个一维输入张量
x = torch.tensor([1.0, 2.0, 3.0, 4.0, 5.0])

# 创建一个一维平均池化层，指定池化核大小为2
avg_pool = nn.AvgPool1d(kernel_size=2)

# 对输入进行一维平均池化
output = avg_pool(x.unsqueeze(0).unsqueeze(0))

print(output)  # 输出平均池化后的结果

（2）二维平均池化（nn.AvgPool2d）

函数构成：

avg_pool = nn.AvgPool2d(kernel_size, stride, padding)

示例：

import torch
import torch.nn as nn

# 创建一个二维输入张量（4x4的图像）
x = torch.tensor([[1.0, 2.0, 3.0, 4.0],
                  [5.0, 6.0, 7.0, 8.0],
                  [9.0, 10.0, 11.0, 12.0],
                  [13.0, 14.0, 15.0, 16.0]], dtype=torch.float32)

# 创建一个二维平均池化层，指定池化核大小为2x2
avg_pool = nn.AvgPool2d(kernel_size=2)

# 对输入进行二维平均池化
output = avg_pool