Pytorch上下采样函数--interpolate()

最新推荐文章于 2025-10-10 17:20:34 发布

原创最新推荐文章于 2025-10-10 17:20:34 发布 · 4.8w 阅读

175 ·

CC 4.0 BY-SA版权

文章标签：

#interpolate #上采样

pytorch笔记专栏收录该内容

8 篇文章

订阅专栏

PyTorch的`torch.nn.functional.interpolate`用于上采样和插值，通过指定的size或scale_factor调整输入张量的大小。支持多种插值模式，包括'nearest', 'linear', 'bilinear', 'bicubic', 'trilinear'和'area'。在使用'bilinear'模式时，可能产生overshoot问题。该函数适用于1D、2D和3D数据，与nn.Upsample在0.4.1版本后被F.interpolate取代。" 115913567,7377049,深度学习与OCR技术在文本识别中的应用探索,"['深度学习', '自然语言处理', '计算机视觉', '神经网络', '图像识别']

部署运行你感兴趣的模型镜像

pytorch torch.nn.functional.interpolate实现插值和上采样

什么是上采样：
上采样，在深度学习框架中，可以简单的理解为任何可以让你的图像变成更高分辨率的技术。 最简单的方式是重采样和插值：将输入图片input image进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值bilinear等插值方法对其余点进行插值。

Unpooling是在CNN中常用的来表示max pooling的逆操作。这是从2013年纽约大学Matthew D. Zeiler和Rob Fergus发表的《Visualizing and Understanding Convolutional Networks》中引用的：因为max pooling不可逆，因此使用近似的方式来反转得到max pooling操作之前的原始情况；

interpolate()

torch.nn.functional.interpolate(input, size=None, scale_factor=None, mode='nearest', align_corners=None)

参数：

input (Tensor) – 输入张量
size (int or Tuple[int] or Tuple[int, int] or Tuple[int, int, int]) – 输出大小.
scale_factor (float or Tuple[float]) – 指定输出为输入的多少倍数。如果输入为tuple，其也要制定为tuple类型
mode (str) – 可使用的上采样算法，有’nearest’, ‘linear’, ‘bilinear’, ‘bicubic’ , ‘trilinear’和’area’. 默认使用’nearest’

注：使用mode='bicubic’时，可能会导致overshoot问题，即它可以为图像生成负值或大于255的值。如果你想在显示图像时减少overshoot问题，可以显式地调用result.clamp(min=0,max=255)。
align_corners (bool, optional) – 几何上，我们认为输入和输出的像素是正方形，而不是点。如果设置为True，则输入和输出张量由其角像素的中心点对齐，从而保留角像素处的值。如果设置为False，则输入和输出张量由它们的角像素的角点对齐，插值使用边界外值的边值填充;当scale_factor保持不变时，使该操作独立于输入大小。仅当使用的算法为’linear’, ‘bilinear’, 'bilinear’or 'trilinear’时可以使用。默认设置为False

如果 align_corners=True，则对齐 input 和 output 的角点像素(corner pixels)，保持在角点像素的值. 只会对 mode=linear, bilinear 和 trilinear 有作用. 默认是 False.

作用：

根据给定的size或scale_factor参数来对输入进行下/上采样

使用的插值算法取决于参数mode的设置

支持目前的temporal(1D, 如向量数据), spatial(2D, 如jpg、png等图像数据)和volumetric(3D, 如点云数据)类型的采样数据作为输入，输入数据的格式为minibatch x channels x [optional depth] x [optional height] x width，具体为：

对于一个temporal输入，期待着3D张量的输入，即minibatch x channels x width
对于一个空间spatial输入，期待着4D张量的输入，即minibatch x channels x height x width
对于体积volumetric输入，则期待着5D张量的输入，即minibatch x channels x depth x height x width

可用于重置大小的mode有：最近邻、线性(3D-only),、双线性, 双三次(bicubic,4D-only)和三线性(trilinear,5D-only)插值算法和area算法

举例：

import torch
from torch import nn
import torch.nn.functional as F
input = torch.arange(1, 5, dtype=torch.float32).view(1, 1, 2, 2)
input

view是改变tensor的形状，返回具有相同数据但大小不同的新张量。

tensor([[[[1., 2.],
          [3., 4.]]]])

x = F.interpolate(input, scale_factor=2, mode='nearest')
x

tensor([[[[1., 1., 2., 2.],
          [1., 1., 2., 2.],
          [3., 3., 4., 4.],
          [3., 3., 4., 4.]]]])

x = F.interpolate(input, scale_factor=2, mode='bilinear', align_corners=True)
x

tensor([[[[1.0000, 1.3333, 1.6667, 2.0000],
          [1.6667, 2.0000, 2.3333, 2.6667],
          [2.3333, 2.6667, 3.0000, 3.3333],
          [3.0000, 3.3333, 3.6667, 4.0000]]]])

注：in version 0.4.1 of Pytorch the nn.Upsample is being replace by F.interpolate

您可能感兴趣的与本文相关的镜像

PyTorch 2.7

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

5 条评论

梦现：) 2021.05.18
谢谢！

未起飞的菜鸟 2020.11.01
博主您好，我想请问下参数size可以为不同的数吗，比如size=[600,700]
- Activewaste回复未起飞的菜鸟 2020.11.02
  F.interpolate(final_feature,size = [outs[3].size()[2],outs[3].size()[3]],mode = 'nearest') 我这样都没问题，直接取out的size。你是不是用错了？
- 未起飞的菜鸟回复Activewaste 2020.11.02
  博主我设置了h和w，在使用函数的时候设置size=[h,w]，结果报错RuntimeError：Expected a list of 1 ints but got 2 for argument #2 'output_size'
- Activewaste回复未起飞的菜鸟 2020.11.01
  可以