NLP文本分类问题

最新推荐文章于 2024-09-03 21:15:29 发布

原创最新推荐文章于 2024-09-03 21:15:29 发布

· 249 阅读

0 ·

版权

文章标签：

#数据挖掘 #机器学习 #深度学习 #tensorflow #pytorch

该博客介绍了使用CNN进行NLP文本分类的基线方法。系统要求包括Python2/3环境和4GB内存。文中提到遇到%pylab inline的问题，并展示了部分代码，包括数据集加载、预处理和使用torchvision库。代码实现了一个名为SVHNDataset的PyTorch数据集类，用于读取和处理训练数据。数据经过Resize等变换后，准备输入到数据加载器中进行批量处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

baseline思路：使用CNN进行定长字符分类；

运行系统要求：Python2/3，内存4G，有无GPU都可以

在这里插入图片描述

%pylab inline 又出现这种问题，前面符号似乎不适合目前系统。

名称	大小	Link
OCNLI_train1128.csv	5.78MB	http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531841/OCNLI_train1128.csv
TNEWS_train1128.csv	4.38MB	http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531841/TNEWS_train1128.csv
OCEMOTION_train1128.csv	4.96MB	http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531841/OCEMOTION_train1128.csv

这个还没来得及下载

完整代码：
import os, sys, glob, shutil, json
import cv2

from PIL import Image
import numpy as np

import torch
from torch.utils.data.dataset import Dataset
import torchvision.transforms as transforms

class SVHNDataset(Dataset):
def init(self, img_path, img_label, transform=None):
self.img_path = img_path
self.img_label = img_label
if transform is not None:
self.transform = transform
else:
self.transform = None

def __getitem__(self, index):
    img = Image.open(self.img_path[index]).convert('RGB')

    if self.transform is not None:
        img = self.transform(img)
    
    # 原始SVHN中类别10为数字0
    lbl = np.array(self.img_label[index], dtype=np.int)
    lbl = list(lbl)  + (5 - len(lbl)) * [10]
    
    return img, torch.from_numpy(np.array(lbl[:5]))

def __len__(self):
    return len(self.img_path)

train_path = glob.glob(’…/input/train/*.png’)
train_path.sort()
train_json = json.load(open(’…/input/train.json’))
train_label = [train_json[x][‘label’] for x in train_json]

data = SVHNDataset(train_path, train_label,
transforms.Compose([
# 缩放到固定尺寸
transforms.Resize((64, 128)),

          # 随机颜色变换
          transforms.ColorJitter(0.2, 0.2, 0.2),

          # 加入随机旋转
          transforms.RandomRotation(5),

          # 将图片转换为pytorch 的tesntor
          # transforms.ToTensor(),

          # 对图像像素进行归一化
          # transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225])
        ]))

通过上述代码，可以将赛题的图像数据和对应标签进行读取，在读取过程中的进行数据扩增，效果如下所示：       
|1|2|3|      
|----|-----|------|          
|![IMG](IMG/Task02/23.png) | ![IMG](IMG/Task02/23_1.png)| ![IMG](IMG/Task02/23_2.png)|
|![IMG](IMG/Task02/144_1.png) | ![IMG](IMG/Task02/144_2.png)| ![IMG](IMG/Task02/144_3.png)|
      
接下来我们将在定义好的Dataset基础上构建DataLoder，你可以会问有了Dataset为什么还要有DataLoder？其实这两个是两个不同的概念，是为了实现不同的功能。                 
- Dataset：对数据集的封装，提供索引方式的对数据样本进行读取      
- DataLoder：对Dataset进行封装，提供批量读取的迭代读取    
       
 加入DataLoder后，数据读取代码改为如下：      
```python
import os, sys, glob, shutil, json
import cv2d

from PIL import Image
import numpy as np

import torch
from torch.utils.data.dataset import Dataset
import torchvision.transforms as transforms

class SVHNDataset(Dataset):
    def __init__(self, img_path, img_label, transform=None):
        self.img_path = img_path
        self.img_label = img_label 
        if transform is not None:
            self.transform = transform
        else:
            self.transform = None

    def __getitem__(self, index):
        img = Image.open(self.img_path[index]).convert('RGB')

        if self.transform is not None:
            img = self.transform(img)
        
        # 原始SVHN中类别10为数字0
        lbl = np.array(self.img_label[index], dtype=np.int)
        lbl = list(lbl)  + (5 - len(lbl)) * [10]
        
        return img, torch.from_numpy(np.array(lbl[:5]))

    def __len__(self):
        return len(self.img_path)

train_path = glob.glob('../input/train/*.png')
train_path.sort()
train_json = json.load(open('../input/train.json'))
train_label = [train_json[x]['label'] for x in train_json]

train_loader = torch.utils.data.DataLoader(
        SVHNDataset(train_path, train_label,
                   transforms.Compose([
                       transforms.Resize((64, 128)),
                       transforms.ColorJitter(0.3, 0.3, 0.2),
                       transforms.RandomRotation(5),
                       transforms.ToTensor(),
                       transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
            ])), 
    batch_size=10, # 每批样本个数
    shuffle=False, # 是否打乱顺序
    num_workers=10, # 读取的线程个数
)

for data in train_loader:
    break

在加入DataLoder后，数据按照批次获取，每批次调用Dataset读取单个样本进行拼接。此时data的格式为：
torch.Size([10, 3, 64, 128]), torch.Size([10, 6])
前者为图像文件，为batchsize * chanel * height * width次序；后者为字符标签。

需要用到cv2