基于字符级 CNN 和 SVM 的中文文本分类
1. 数据预处理
数据预处理是构建分类模型的重要基础,其主要步骤如下:
1. 数据集划分 :从 10 个候选分类中提取 8000 条数据,构建分类模型所需的训练集、验证集和测试集。其中,训练集包含 60000 条文本数据,验证集和测试集分别包含 10000 条文本数据。
2. 词汇表构建与存储 :将词汇表大小设置为 6000,根据训练集文本中字符的出现次数进行排序,选取前 5999 个字符构建词汇表。词汇表中的字符用 (c_i (i = 1, 2, …, 5999)) 表示,最后一个字符为 0,用于表示不在词汇表中的字符。文本序列长度为 (n) 时,字符表示如下:
(T = {‘c_1’: 0, ‘c_2’: 1, …, ‘c_n’: n})
3. 候选分类向量化 :选取 10 类新闻文本进行实验,假设 (M) 表示分类目录,10 类文本的标签和对应序号以字典形式表示:
(M = {‘sports’: 0, ‘finance’: 1, ‘real estate’: 2, ‘furnishing’: 3, …, ‘games’: 8, ‘entertainment’: 9})
根据存储的词汇表,对训练、验证和测试的文本数据及类别标签进行向量化。使用 Python 中 keras 模块的 pad_sequences 函数,将每条数据的序列长度统一设置为 600。向量化数据格式如下表所示:
| Data | Shape | Date | Shape |
|
字符级CNN与SVM中文文本分类
超级会员免费看
订阅专栏 解锁全文
888

被折叠的 条评论
为什么被折叠?



