深度学习实践-NLP task1 THUCN&IMDB&召回率、准确率、ROC曲线、AUC、PR曲线学习理解

最新推荐文章于 2025-04-01 11:44:42 发布

原创

最新推荐文章于 2025-04-01 11:44:42 发布 · 666 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了THUCNews和IMDB数据集的下载与探索，并详细讲解了在二分类问题中，如何计算召回率、准确率、ROC曲线、AUC和PR曲线等关键评估指标。THUCNews包含10个类别，IMDB数据集则用于情感分析。通过对这些指标的理解，有助于提升模型的性能评估。

深度学习实践-NLP task1 THUCN&IMDB&召回率、准确率、ROC曲线、AUC、PR曲线学习理解

1、THUCNews数据集下载和探索
- 1.1 THUCNews数据集下载及介绍
- 1.2 预处理
2、IMDB数据集下载和探索
- 2.1 下载数据集
- 2.2 探索数据
3、召回率、准确率、ROC曲线、AUC、PR曲线

1、THUCNews数据集下载和探索

1.1 THUCNews数据集下载及介绍

数据集来自于：THUCNews THUCNews数据子集：https://pan.baidu.com/s/1hugrfRu 密码：qfud
该数据集是清华NLP组提供的THUCNews新闻文本分类数据集的一个子集。其中训练中使用了其中的10个分类，每个分类6500条，总共65000条新闻数据。
10个分类分别为：体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐。

数据集划分如下：

训练集: 5000*10
验证集: 500*10
测试集: 1000*10

然后可以得到划分后三个文件：

cnews.train.txt: 训练集(50000条)
cnews.val.txt: 验证集(5000条)
cnews.test.txt: 测试集(10000条)

1.2 预处理

data/cnews_loader.py为数据的预处理文件。

read_file(): 读取文件数据;
build_vocab(): 构建词汇表，使用字符级的表示，这一函数会将词汇表存储下来，避免每一次重复处理;
read_vocab(): 读取上一步存储的词汇表，转换为{词：id}表示;
read_category(): 将分类目录固定，转换为{类别: id}表示;
to_words(): 将一条由id表示的数据重新转换为文字;
preocess_file(): 将数据集从文字转换为固定长度的id序列表示;
batch_iter(): 为神经网络的训练准备经过shuffle的批次的数据。