pytorch 实现 textCNN

最新推荐文章于 2024-05-13 16:45:52 发布

明日何其多_

最新推荐文章于 2024-05-13 16:45:52 发布

阅读量8.9k

点赞数 12

分类专栏： pytorch

本文链接：https://blog.youkuaiyun.com/qsmx666/article/details/105302858

版权

textCNN 模型

textCNN模型主要使用了一维卷积层和时序最大池化层。
一维卷积层相当于高为1的二维卷积层，多输入通道的一维互相关运算也与多输入通道的二维互相关运算类似：在每个通道上，将核与相应的输入做一维互相关运算，并将通道之间的结果相加得到输出结果。
在这里插入图片描述
时序最大池化（max-over-time pooling）层实际上对应一维全局最大池化层，特点是卷积窗口和输入数组的宽高对应相同，每个通道只输出一个元素。

假设输入的文本序列由 $n$ 个词组成，每个词用 $d$ 维的词向量表示。那么输入样本的宽为 $n$ ，高为1，输入通道数为 $d$ 。卷积核的高度为d。卷积核的个数即为输出通道数。textCNN的计算主要分为以下几步。

定义多个一维卷积核，并使用这些卷积核对输入分别做卷积计算。宽度不同的卷积核可能会捕捉到不同个数的相邻词的相关性。
对输出的所有通道分别做时序最大池化，再将这些通道的池化输出值连结为向量。
通过全连接层将连结后的向量变换为有关各类别的输出。这一步可以使用丢弃层应对过拟合。

上图用一个例子解释了textCNN的设计。这里的输入是一个有11个词的句子，每个词用6维词向量表示。因此输入序列的宽为11，输入通道数为6。给定2个一维卷积核，核宽分别为2和4，输出通道数分别设为4和5。因此，一维卷积计算后，4个输出通道的宽为11−2+1=10，而其他5个通道的宽为11−4+1=8。尽管每个通道的宽不同，我们依然可以对各个通道做时序最大池化，并将9个通道的池化输出连结成一个9维向量。最终，使用全连接将9维向量变换为2维输出，即正面情感和负面情感的预测（概率）。

pytorch 实现

这部分代码主要参考：
文本分类系列(1):textcnn及其pytorch实现.

导入包

import torch
import torch.nn as nn
import torch.nn.functional as F
import pandas as pd
import jieba
import os
from torch.nn import init
from torchtext import data
from torchtext.vocab import Vectors
import time

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

数据预处理

这是一个汽车评论数据集，训练集和测试集是分开的，格式如下。
在这里插入图片描述
这里我们要用到pytorch中的文本处理工具包torchtext。
torchtext预处理流程：

定义Field：声明如何处理数据。
定义Dataset：得到数据集，此时数据集里每一个样本是一个经过 Field声明的预处理后的 wordlist。
建立vocab：在这一步建立词汇表，词向量(word embeddings)。
构造迭代器：构造迭代器，用来分批次训练模型
首先定义分词和去停用词的函数。

# 分词
def tokenizer(text): 
    return [word for word in jieba.lcut(text) if word not in stop_words]
# 去停用词
def get_stop_words():
    file_object = open('data/stopwords.txt',encoding='utf-8')
    stop_words = []
    for line in file_object.readlines():
        line = line[:-1]
        line = line.strip()
        stop_words.append(line)
    return stop_words