22、基于字符级 CNN 和 SVM 的中文文本分类

字符级CNN与SVM中文文本分类

基于字符级 CNN 和 SVM 的中文文本分类

1. 数据预处理

数据预处理是构建分类模型的重要基础,其主要步骤如下:
1. 数据集划分 :从 10 个候选分类中提取 8000 条数据,构建分类模型所需的训练集、验证集和测试集。其中,训练集包含 60000 条文本数据,验证集和测试集分别包含 10000 条文本数据。
2. 词汇表构建与存储 :将词汇表大小设置为 6000,根据训练集文本中字符的出现次数进行排序,选取前 5999 个字符构建词汇表。词汇表中的字符用 (c_i (i = 1, 2, …, 5999)) 表示,最后一个字符为 0,用于表示不在词汇表中的字符。文本序列长度为 (n) 时,字符表示如下:
(T = {‘c_1’: 0, ‘c_2’: 1, …, ‘c_n’: n})
3. 候选分类向量化 :选取 10 类新闻文本进行实验,假设 (M) 表示分类目录,10 类文本的标签和对应序号以字典形式表示:
(M = {‘sports’: 0, ‘finance’: 1, ‘real estate’: 2, ‘furnishing’: 3, …, ‘games’: 8, ‘entertainment’: 9})
根据存储的词汇表,对训练、验证和测试的文本数据及类别标签进行向量化。使用 Python 中 keras 模块的 pad_sequences 函数,将每条数据的序列长度统一设置为 600。向量化数据格式如下表所示:
| Data | Shape | Date | Shape |
|

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值