字符识别模型的学习

最新推荐文章于 2023-11-20 20:28:53 发布

原创最新推荐文章于 2023-11-20 20:28:53 发布 · 220 阅读

CC 4.0 BY-SA版权

本文介绍了使用PyTorch构建卷积神经网络(CNN)完成字符分类任务的过程。从理解CNN的基本概念出发，详细解析了CNN的结构，包括卷积层、池化层和全连接层的工作原理。并通过一个具体实例，展示了如何使用PyTorch定义CNN模型，以及如何训练该模型进行字符识别。

部署运行你感兴趣的模型镜像

本次学习已经经历了两个任务，第一个Task是baseline的学习，在此任务中虽然跑通了baseline，但是对其中的一些代码，小白仍处于懵的状态。第二个Task是数据读取与扩增，是对baseline中读取数据部分的解析。本次的Task3则是学习pytorch构建模型完成字符分类任务。

CNN（卷积神经网络）的介绍
CNN每一层由众多的卷积核组成，每个卷积核对输入的像素进行卷积操作，得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野，并缩减图像的尺寸。CNN是一种层次模型，输入的是原始的像素数据。CNN由卷积（convolution）、池化（pooling）、非线性激活函数（non-linear activation function）和全连接层（fully connected layer）构成。

通过多次卷积和池化，CNN的最后一层将输入的图像像素映射为具体的输出。如在分类任务中会转换为不同类别的概率输出，然后计算真实标签与CNN模型的预测结果的差异，并通过反向传播更新每层的参数，并在更新完成后再次前向传播，如此反复直到训练完成。

卷积层计算过程动态图如下：在这里插入图片描述与传统机器学习模型相比，CNN具有一种端到端（End to End）的思路。在CNN训练的过程中是直接从图像像素到最终的输出，并不涉及到具体的特征提取和构建模型的过程，也不需要人工的参与。

使用pytorch构建一个简单的CNN模型，完成字符识别功能（此处挪用大佬的代码）

#引入各种库
import os, sys, glob, shutil, json
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
import cv2

from PIL import Image
import numpy as np

from tqdm import tqdm, tqdm_notebook

import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True

import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset

# 定义模型
class SVHN_Model1(nn.Module):
    def __init__(self):
        super(SVHN_Model1, self).__init__()
        # CNN提取特征模块
        self.cnn = nn.Sequential(
            nn.Conv2d(3, 16, kernel_size=(3, 3), stride=(2, 2)),
            nn.ReLU(),  
            nn.MaxPool2d(2),
            nn.Conv2d(16, 32, kernel_size=(3, 3), stride=(2, 2)),
            nn.ReLU(), 
            nn.MaxPool2d(2),
        )
        # 
        self.fc1 = nn.Linear(32*3*7, 11)
        self.fc2 = nn.Linear(32*3*7, 11)
        self.fc3 = nn.Linear(32*3*7, 11)
        self.fc4 = nn.Linear(32*3*7, 11)
        self.fc5 = nn.Linear(32*3*7, 11)
        self.fc6 = nn.Linear(32*3*7, 11)
    
    def forward(self, img):        
        feat = self.cnn(img)
        feat = feat.view(feat.shape[0], -1)
        c1 = self.fc1(feat)
        c2 = self.fc2(feat)
        c3 = self.fc3(feat)
        c4 = self.fc4(feat)
        c5 = self.fc5(feat)
        c6 = self.fc6(feat)
        return c1, c2, c3, c4, c5, c6
model = SVHN_Model1()

以上的CNN模型包括两个卷积层，最后并联6个全连接层进行分类。

接下去是训练以上模型的代码

criterion = nn.CrossEntropyLoss()
#叉熵损失函数，在nn中已经定义好
optimizer = torch.optim.Adam(model.parameters(), 0.005)
#优化器在optim中定义好，可直接调用
loss_plot, c0_plot = [], []
# 迭代10个Epoch
for epoch in range(10):
    for data in train_loader:
        c0, c1, c2, c3, c4, c5 = model(data[0])
        loss = criterion(c0, data[1][:, 0]) + \
                criterion(c1, data[1][:, 1]) + \
                criterion(c2, data[1][:, 2]) + \
                criterion(c3, data[1][:, 3]) + \
                criterion(c4, data[1][:, 4]) + \
                criterion(c5, data[1][:, 5])
        loss /= 6
        optimizer.zero_grad()
        #将参数的grad值初始化为0
        loss.backward()
        #反向传播
        optimizer.step()
        #用SGD更新参数
        
        loss_plot.append(loss.item())
        c0_plot.append((c0.argmax(1) == data[1][:, 0]).sum().item()*1.0 / c0.shape[0])
        
    print(epoch)

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), 0.005)
这两句代码是初始化loss和优化函数。

<注意>：在运行代码过程中出现以下错误：在这里插入图片描述
这是由于Windows系统所导致的问题。

总结：整个学习中参考了大佬给的代码，希望通过代码的学习，慢慢去了解pytorch是如何构建以及训练模型的。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理