使用PyTorch建立图像分类模型

最新推荐文章于 2025-09-26 04:46:55 发布

原创

最新推荐文章于 2025-09-26 04:46:55 发布 · 6.1k 阅读

91 ·

CC 4.0 BY-SA版权

本文是关于使用PyTorch构建卷积神经网络（CNN）进行图像分类的实践教程。首先介绍了PyTorch和张量的基础，然后解释了CNN在处理图像数据上的优势，特别是空间定位和减少参数数量的能力。接着，通过一个识别服装类型的案例，展示了如何加载数据、创建验证集、预处理图像以及构建和训练简单的CNN模型。最终，模型在测试集上实现了约71%的准确率，相较于简单的神经网络有了显著提升。

概述

在PyTorch中构建自己的卷积神经网络(CNN)的实践教程
我们将研究一个图像分类问题——CNN的一个经典和广泛使用的应用
我们将以实用的格式介绍深度学习概念

介绍

我被神经网络的力量和能力所吸引。在机器学习和深度学习领域，几乎每一次突破都以神经网络模型为核心。

这在计算机视觉领域尤为普遍。无论是简单的图像分类还是更高级的东西(如对象检测)，神经网络开辟了处理图像数据的可能性。简而言之，对于像我这样的数据科学家来说，这是一座金矿!

当我们使用深度学习来解决一个图像分类问题时，简单的神经网络总是一个好的起点。但是，它们确实有局限性，而且模型的性能在达到一定程度后无法得到改善。

这就是卷积神经网络(CNNs)改变了竞争环境的地方。它们在计算机视觉应用中无处不在。老实说，我觉得每一个计算机视觉爱好者都应该可以很快学会这个概念。

我将向你介绍使用流行的PyTorch框架进行深度学习的新概念。在本文中，我们将了解卷积神经网络是如何工作的，以及它如何帮助我们改进模型的性能。我们还将研究在PyTorch中CNNs的实现。

简要介绍PyTorch、张量和NumPy

让我们快速回顾一下第一篇文章中涉及的内容。我们讨论了PyTorch和张量的基础知识，还讨论了PyTorch与NumPy的相似之处。

PyTorch是一个基于python的库，提供了以下功能:

用于创建可序列化和可优化模型的TorchScript
以分布式训练进行并行化计算
动态计算图，等等

PyTorch中的张量类似于NumPy的n维数组，也可以与gpu一起使用。在这些张量上执行操作几乎与在NumPy数组上执行操作类似。这使得PyTorch非常易于使用和学习。

在本系列的第1部分中，我们构建了一个简单的神经网络来解决一个案例研究。使用我们的简单模型，我们在测试集中获得了大约65%的基准准确度。现在，我们将尝试使用卷积神经网络来提高这个准确度。

为什么选择卷积神经网络(CNNs)?

在我们进入实现部分之前，让我们快速地看看为什么我们首先需要CNNs，以及它们是如何工作的。

我们可以将卷积神经网络(CNNs)看作是帮助从图像中提取特征的特征提取器。

在一个简单的神经网络中，我们把一个三维图像转换成一维图像，对吧?让我们看一个例子来理解这一点:

你能认出上面的图像吗?这似乎说不通。现在，让我们看看下面的图片:

我们现在可以很容易地说，这是一只狗。如果我告诉你这两个图像是一样的呢?相信我，他们是一样的!唯一的区别是第一个图像是一维的，而第二个图像是相同图像的二维表示

空间定位

人工神经网络也会丢失图像的空间方向。让我们再举个例子来理解一下:

你能分辨出这两幅图像的区别吗?至少我不能。由于这是一个一维的表示，因此很难确定它们之间的区别。现在，让我们看看这些图像的二维表示:

在这里，图像某些定位已经改变，但我们无法通过查看一维表示来识别它。

这就是人工神经网络的问题——它们失去了空间定位。

大量参数

神经网络的另一个问题是参数太多。假设我们的图像大小是28283 -所以这里的参数是2352。如果我们有一个大小为2242243的图像呢?这里的参数数量为150,528。

这些参数只会随着隐藏层的增加而增加。因此，使用人工神经网络的两个主要缺点是:

丢失图像的空间方向
参数的数量急剧增加

那么我们如何处理这个问题呢?如何在保持空间方向的同时减少可学习参数?

这就是卷积神经网络真正有用的地方。CNNs有助于从图像中提取特征，这可能有助于对图像中的目标进行分类。它首先从图像中提取低维特征(如边缘)，然后提取一些高维特征(如形状)。

我们使用滤波器从图像中提取特征，并使用池技术来减少可学习参数的数量。

在本文中，我们不会深入讨论这些主题的细节。如果你希望了解滤波器如何帮助提取特征和池的工作方式，我强烈建议你从头开始学习卷积神经网络的全面教程。

理解问题陈述:识别服装

理论部分已经铺垫完了，开始写代码吧。我们将讨论与第一篇文章相同的问题陈述。这是因为我们可以直接将我们的CNN模型的性能与我们在那里建立的简单神经网络进行比较。

你可以从这里下载“识别”Apparels问题的数据集。

https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-apparels/?utm_source=blog&utm_medium=building-image-classification-models-cnn-pytorch

让我快速总结一下问题陈述。我们的任务是通过观察各种服装形象来识别服装的类型。我们总共有10个类可以对服装的图像进行分类:

Label	Description
0	T-shirt/top
1	Trouser
2	Pullover
3	Dress
4	Coat
5	Sandal
6	Shirt
7	Sneaker
8	Bag
9	Ankle boot

数据集共包含70,000张图像。其中60000张属于训练集，其余10000张属于测试集。所有的图像都是大小(28*28)的灰度图像。数据集包含两个文件夹,—一个用于训练集，另一个用于测试集。每个文件夹中都有一个.csv文件，该文件具有图像的id和相应的标签;

准备好开始了吗?我们将首先导入所需的库:

# 导入库
import pandas as pd
import numpy as np

# 读取与展示图片
from skimage.io import imread
import matplotlib.pyplot as plt
%matplotlib inline

# 创建验证集
from sklearn.model_selection import train_test_split

# 评估模型
from sklearn.metrics import accuracy_score
from tqdm import tqdm

# Pytorch的相关库
import torch
from torch.autograd import Variable
from torch.nn import Linear, ReLU, CrossEntropyLoss, Sequential, Conv2d, MaxPool2d, Module, Softmax, BatchNorm2d, Dropout
from torch.optim import Adam, SGD

加载数据集

现在，让我们加载数据集，包括训练，测试样本:

# 加载数据集
train = pd.read_csv('train_LbELtWX/train.csv')
test = pd.read_csv('test_ScVgIM0/test.csv')

sample_submission = pd.read_csv('sample_submission_I5njJSF.csv')

train.head()

该训练文件包含每个图像的id及其对应的标签
另一方面，测试文件只有id，我们必须预测它们对应的标签
样例提交文件将告诉我们预测的格式

我们将一个接一个地读取所有图像，并将它们堆叠成一个数组。我们还将图像的像素值除以255，使图像的像素值在[0,1]范围内。这一步有助于优化模型的性能。

让我们来加载图像:

# 加载训练图像
train_img = []
for img_name in tqdm(train['id']):
    # 定义图像路径
    image_path = 'train_LbELtWX/train/'   str(img_name)

最低0.47元/天解锁文章