深度学习实战：基于d2l-ai的情感分析数据集处理指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01040/article/details/148362029

深度学习实战：基于d2l-ai的情感分析数据集处理指南

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

引言

情感分析是自然语言处理(NLP)领域的重要应用之一，它能够从文本数据中自动识别和提取主观情感信息。本文将基于d2l-ai项目，详细介绍如何处理情感分析数据集，为后续构建情感分类模型做好准备。

情感分析概述

情感分析（Sentiment Analysis）是指通过计算技术对文本中的主观信息进行分析、处理和归纳的过程。这项技术在多个领域都有广泛应用：

商业领域：分析产品评论，了解消费者偏好
金融领域：监测市场情绪，预测股票走势
公共事务领域：评估公众对公共政策的反应
社交媒体：分析用户对热点事件的看法

从技术角度看，情感分析可以视为一种特殊的文本分类任务，将变长的文本序列转换为固定的情感类别（如正面/负面）。

IMDb电影评论数据集

我们将使用斯坦福大学提供的大型电影评论数据集（IMDb），这是情感分析领域的经典基准数据集：

包含50,000条电影评论（25,000条训练，25,000条测试）
每条评论标注为"正面"或"负面"
数据平衡，正负样本各占一半

数据加载与预处理

1. 下载数据集

首先需要下载并解压数据集到本地目录：

data_dir = d2l.download_extract('aclImdb', 'aclImdb')

2. 读取数据

数据集按情感标签分类存储在不同文件夹中，我们需要编写函数读取这些数据：

def read_imdb(data_dir, is_train):
    data, labels = [], []
    for label in ('pos', 'neg'):
        folder_name = os.path.join(data_dir, 'train' if is_train else 'test', label)
        for file in os.listdir(folder_name):
            with open(os.path.join(folder_name, file), 'rb') as f:
                review = f.read().decode('utf-8').replace('\n', '')
                data.append(review)
                labels.append(1 if label == 'pos' else 0)
    return data, labels

3. 数据分词与词表构建

将文本转换为模型可处理的数值形式是NLP任务的关键步骤：

train_tokens = d2l.tokenize(train_data[0], token='word')
vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=['<pad>'])

这里我们：

使用单词级分词
过滤出现次数少于5次的低频词
添加标记用于序列填充

4. 序列长度处理

电影评论长度差异很大，我们需要统一长度以便批量处理：

num_steps = 500  # 统一序列长度
train_features = d2l.tensor([d2l.truncate_pad(
    vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])

处理方式包括：

长序列截断
短序列填充
统一为500个token长度

数据迭代器创建

为了高效训练模型，我们需要创建数据迭代器：

train_iter = d2l.load_array((train_features, train_data[1]), 64)

数据迭代器会：

自动将数据分批次
支持随机打乱
提供高效的数据加载

完整数据处理流程

将上述步骤封装为统一函数：

def load_data_imdb(batch_size, num_steps=500):
    # 数据下载与读取
    data_dir = d2l.download_extract('aclImdb', 'aclImdb')
    train_data = read_imdb(data_dir, True)
    test_data = read_imdb(data_dir, False)
    
    # 分词与词表构建
    train_tokens = d2l.tokenize(train_data[0], token='word')
    test_tokens = d2l.tokenize(test_data[0], token='word')
    vocab = d2l.Vocab(train_tokens, min_freq=5)
    
    # 序列长度处理
    train_features = torch.tensor([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
    test_features = torch.tensor([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in test_tokens])
    
    # 创建数据迭代器
    train_iter = d2l.load_array((train_features, torch.tensor(train_data[1])), batch_size)
    test_iter = d2l.load_array((test_features, torch.tensor(test_data[1])), batch_size, is_train=False)
    
    return train_iter, test_iter, vocab