文本分类-《动手学深度学习pytorch》

最新推荐文章于 2025-03-10 12:02:21 发布

serenysdfg

最新推荐文章于 2025-03-10 12:02:21 发布

阅读量522

点赞数

分类专栏：深度学习

本文链接：https://blog.youkuaiyun.com/serenysdfg/article/details/104508866

版权

深度学习专栏收录该内容

25 篇文章

订阅专栏

它把一段不定长的文本序列变换为文本的类别。

情感分析：使用文本情感分类来分析文本作者的情绪。有广泛的应用。

应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络，来判断一段不定长的文本序列中包含的是正面还是负面的情绪。后续内容将从以下几个方面展开：

文本情感分类数据集
使用循环神经网络进行情感分类
使用卷积神经网络进行情感分类

文本情感分类数据

我们使用斯坦福的IMDb数据集（Stanford’s Large Movie Review Dataset）作为文本情感分类的数据集。

词典和词语的索引创建

def get_vocab_imdb(data):
    tokenized_data = get_tokenized_imdb(data)#分词后的文本的列表
    counter = collections.Counter([tk for st in tokenized_data for tk in st])
    return Vocab.Vocab(counter, min_freq=5) #torchtext.vocab.Vocab 创建词典。

#将数据集的文本从字符串的形式转换为单词下标序列的形式

#将数据集的文本从字符串的形式转换为单词下标序列的形式
def preprocess_imdb(data, vocab):
    max_l = 500  # 将每条评论通过截断或者补0，使得长度变成500
    def pad(x):
        return x[:max_l] if len(x) > max_l else x + [0] * (max_l - len(x))
    tokenized_data = get_tokenized_imdb(data)
    features = torch.tensor([pad([vocab.stoi[word] for word in words]) for words in tokenized_data])
    labels = torch.tensor([score for _, score in data])
    return features, labels

创建 PyTorch 格式的数据集，从而创建数据迭代器。利用

train_set = Data.TensorDataset(*preprocess_imdb(train_data, vocab))
test_set = Data.TensorDataset(*preprocess_imdb(test_data, vocab))

# 上面的代码等价于下面的注释代码
# train_features, train_labels = preprocess_imdb(train_data, vocab)
# train_set = Data.TensorDataset(train_features, train_labels)
# train_set[index] = (features[index], labels[index])

batch_size = 64
train_iter = Data.DataLoader(train_set, batch_size, shuffle=True)
test_iter = Data.DataLoader(test_set, batch_size)

使用循环神经网络

#LSTM类
class BiRNN(nn.Module):
    def __init__(self, vocab, embed_size, num_hiddens, num_layers):
        super(BiRNN, self).__init__()
        self.embedding = nn.Embedding(len(vocab), embed_size)
        
        # encoder-decoder framework
        # bidirectional设为True即得到双向循环神经网络
        self.encoder = nn.LSTM(input_size=embed_size, 
                                hidden_size=num_hiddens, 
                                num_layers=num_layers,
                                bidirectional=True)
        self.decoder = nn.Linear(4*num_hiddens, 2) # 初始时间步和最终时间步的隐藏状态作为全连接层输入
        
    def forward(self, inputs):
        # 因为LSTM需要将序列长度(seq_len)作为第一维，所以需要将输入转置
        embeddings = self.embedding(inputs.permute(1, 0)) # (seq_len, batch_size, d)
        # rnn.LSTM 返回输出、隐藏状态和记忆单元，格式如 outputs, (h, c)
        outputs, _ = self.encoder(embeddings) # (seq_len, batch_size, 2*h)
        encoding = torch.cat((outputs[0], outputs[-1]), -1) # (batch_size, 4*h)
        outs = self.decoder(encoding) # (batch_size, 2)
        return outs