Pytorch 网络对输入图像要求固定大小的处理方法记录

最新推荐文章于 2024-09-20 20:29:31 发布

东城zzm

最新推荐文章于 2024-09-20 20:29:31 发布

阅读量992

点赞数

CC 4.0 BY-SA版权

文章标签： pytorch 深度学习神经网络

原文链接：https://blog.youkuaiyun.com/darkeyers/article/details/97175259/?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%9B%BA%E5%AE%9A%E5%A4%A7%E5%B0%8F%E8%BE%93%E5%85%A5%E7%BD%91%E7%BB%9C%E6%A8%A1%E5%9E%8B&utm_medium=distribute.pc_search_result.none-task-blog-2~

本文介绍了如何使用PyTorch处理输入图像大小不一致的问题。通过读取图像，转换尺寸，应用预定义的转换（如ToTensor），并调整张量维度以匹配预训练模型的要求（如ImageNet上的模型），可以将任意大小的图像输入到模型进行分类。这种方法确保了网络能够正确处理非标准尺寸的测试图像。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对一些在ImageNet数据集上预训练的model，在分类的时候往往是使用的Fully Connected Layer，且往往是Linear（2048,1000）。而我们的测试图像往往不同于训练时候的2242243 ，那么经过以下方法的处理，可以经过网络处理。

import torch
from torchvision import datasets, transforms
import numpy as np
from PIL import Image
 
filename='hotpot.jpg'
image=Image.open(filename).convert('RGB') #读取图像，转换为三维矩阵
image=image.resize((224,224),Image.ANTIALIAS) #将其转换为要求的输入大小224*224
transform=transforms.Compose([transforms.ToTensor()])
img = transform(image) #转为Tensor
img=img.resize(1,3,224,224) #如果存在要求输入图像为4维的情况，使用resize函数增加一维
 
 
output =model(img) #执行即可