文本分类-《动手学深度学习pytorch》

它把一段不定长的文本序列变换为文本的类别。

情感分析:使用文本情感分类来分析文本作者的情绪。有广泛的应用。

应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情绪。后续内容将从以下几个方面展开:

  1. 文本情感分类数据集
  2. 使用循环神经网络进行情感分类
  3. 使用卷积神经网络进行情感分类

文本情感分类数据

我们使用斯坦福的IMDb数据集(Stanford’s Large Movie Review Dataset)作为文本情感分类的数据集。

词典和词语的索引创建

def get_vocab_imdb(data):
    tokenized_data = get_tokenized_imdb(data)#分词后的文本的列表
    counter = collections.Counter([tk for st in tokenized_data for tk in st])
    return Vocab.Vocab(counter, min_freq=5) #torchtext.vocab.Vocab 创建词典。

#将数据集的文本从字符串的形式转换为单词下标序列的形式

#将数据集的文本从字符串的形式转换为单词下标序列的形式
def preprocess_imdb(data, vocab):
    max_l = 500  # 将每条评论通过截断或者补0,使得长度变成500
    def pad(x):
        return x[:max_l] if len(x) > max_l else x + [0] * (max_l - len(x))
    tokenized_data = get_tokenized_imdb(data)
    features = torch.tensor([pad([vocab.stoi[word] for word in words]) for words in tokenized_data])
    labels = torch.tensor([score for _, score in data])
    return features, labels

创建 PyTorch 格式的数据集,从而创建数据迭代器。利用

train_set = Data.TensorDataset(*preprocess_imdb(train_data, vocab))
test_set = Data.TensorDataset(*preprocess_imdb(test_data, vocab))

# 上面的代码等价于下面的注释代码
# train_features, train_labels = preprocess_imdb(train_data, vocab)
# train_set = Data.TensorDataset(train_features, train_labels)
# train_set[index] = (features[index], labels[index])

batch_size = 64
train_iter = Data.DataLoader(train_set, batch_size, shuffle=True)
test_iter = Data.DataLoader(test_set, batch_size)

使用循环神经网络

#LSTM类
class BiRNN(nn.Module):
    def __init__(self, vocab, embed_size, num_hiddens, num_layers):
        super(BiRNN, self).__init__()
        self.embedding = nn.Embedding(len(vocab), embed_size)
        
        # encoder-decoder framework
        # bidirectional设为True即得到双向循环神经网络
        self.encoder = nn.LSTM(input_size=embed_size, 
                                hidden_size=num_hiddens, 
                                num_layers=num_layers,
                                bidirectional=True)
        self.decoder = nn.Linear(4*num_hiddens, 2) # 初始时间步和最终时间步的隐藏状态作为全连接层输入
        
    def forward(self, inputs):
        # 因为LSTM需要将序列长度(seq_len)作为第一维,所以需要将输入转置
        embeddings = self.embedding(inputs.permute(1, 0)) # (seq_len, batch_size, d)
        # rnn.LSTM 返回输出、隐藏状态和记忆单元,格式如 outputs, (h, c)
        outputs, _ = self.encoder(embeddings) # (seq_len, batch_size, 2*h)
        encoding = torch.cat((outputs[0], outputs[-1]), -1) # (batch_size, 4*h)
        outs = self.decoder(encoding) # (batch_size, 2)
        return outs

使用卷积神经网络进行情感分类

时序最大池化层

TextCNN 中使用的时序最大池化(max-over-time pooling)层实际上对应一维全局最大池化层:假设输入包含多个通道,各通道由不同时间步上的数值组成,各通道的输出即该通道所有时间步中最大的数值。因此,时序最大池化层的输入在各个通道上的时间步数可以不同。

TextCNN 模型

TextCNN 的计算主要分为以下几步。

  1. 定义多个一维卷积核,并使用这些卷积核对输入分别做卷积计算。宽度不同的卷积核可能会捕捉到不同个数的相邻词的相关性。
  2. 对输出的所有通道分别做时序最大池化,再将这些通道的池化输出值连结为向量。
  3. 通过全连接层将连结后的向量变换为有关各类别的输出。这一步可以使用丢弃层应对过拟合。

动手学深度学习 pytorch.pdf》是一本关于深度学习PyTorch框架的学习教材。它由苏剑林等人编写,以PyTorch作为工具,全面介绍了深度学习的基本原理和应用。该教材主要分为6个部分,包括深度学习基础、计算机视觉、自然语言处理、生成对抗网络、深度强化学习和工作实践。通过大量的例子和实践,读者可以深入理解深度学习的核心概念以及如何使用PyTorch实现深度学习模型。 首先,教材通过深度学习基础部分介绍了神经网络的基本原理、损失函数、优化算法等核心知识。接着,计算机视觉部分详细解释了图像分类、目标检测、图像风格转换等任务的实现方法。在自然语言处理部分,教材展示了如何用深度学习模型进行文本分类、语义理解等任务。生成对抗网络部分讲解了生成模型、判别模型和生成对抗训练等关键概念。深度强化学习部分介绍了如何使用深度学习与强化学习相结合解决控制问题。最后的工作实践部分通过实际场景案例,指导读者如何将深度学习应用到实际项目中。 《动手学深度学习 pytorch.pdf》内容详实,既有理论知识又有实际应用的案例,适合既想理解深度学习基本原理又想动手实践的读者。无论是初学者还是有一定基础的学习者,都可以通过这本教材系统地学习深度学习PyTorch。总之,这本教材是学习深度学习的一本宝典,可以帮助读者快速入门并深入掌握深度学习PyTorch的使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值