22、基于字符级 CNN 和 SVM 的中文文本分类

字符级CNN与SVM中文文本分类

backprop5master

于 2025-10-09 16:30:46 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：智能计算前沿探秘文章标签：字符级CNN SVM 中文文本分类

本文链接：https://blog.youkuaiyun.com/backprop5master/article/details/153722678

智能计算前沿探秘专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于字符级 CNN 和 SVM 的中文文本分类

1. 数据预处理

数据预处理是构建分类模型的重要基础，其主要步骤如下：
1. 数据集划分 ：从 10 个候选分类中提取 8000 条数据，构建分类模型所需的训练集、验证集和测试集。其中，训练集包含 60000 条文本数据，验证集和测试集分别包含 10000 条文本数据。
2. 词汇表构建与存储 ：将词汇表大小设置为 6000，根据训练集文本中字符的出现次数进行排序，选取前 5999 个字符构建词汇表。词汇表中的字符用 (c_i (i = 1, 2, …, 5999)) 表示，最后一个字符为 0，用于表示不在词汇表中的字符。文本序列长度为 (n) 时，字符表示如下：
(T = {‘c_1’: 0, ‘c_2’: 1, …, ‘c_n’: n})
3. 候选分类向量化 ：选取 10 类新闻文本进行实验，假设 (M) 表示分类目录，10 类文本的标签和对应序号以字典形式表示：
(M = {‘sports’: 0, ‘finance’: 1, ‘real estate’: 2, ‘furnishing’: 3, …, ‘games’: 8, ‘entertainment’: 9})
根据存储的词汇表，对训练、验证和测试的文本数据及类别标签进行向量化。使用 Python 中 keras 模块的 pad_sequences 函数，将每条数据的序列长度统一设置为 600。向量化数据格式如下表所示：
| Data | Shape | Date | Shape |
|