9、文本分类:从预处理到实际应用

文本分类:从预处理到实际应用

1. 文本分类前的准备

在训练文本分类模型之前,需要将文本转换为数字,这个过程称为向量化。常见的向量化技术是将文本样本表示为行,训练文本中的单词表示为列,行中的数字是单词计数,每行的最后一个数字是标签(0 表示负面,1 表示正面)。

在向量化之前,通常需要对文本进行清理,包括将字符转换为小写、去除标点符号,还可以选择去除停用词(如“the”“and”等对结果影响较小的常用词)。清理后的句子会被拆分为单个单词(分词),用于生成类似上述的数据集。

Scikit - Learn 提供了三个类来处理文本清理和向量化的主要工作:
- CountVectorizer :从训练文本的单词语料库中创建字典(词汇表),并生成单词计数矩阵。
- HashingVectorizer :使用单词哈希而不是内存中的词汇表来生成单词计数,更节省内存。
- TfidfVectorizer :根据提供的单词创建字典,并生成类似的矩阵,但矩阵中包含的是词频 - 逆文档频率(TFIDF)值,范围在 0.0 到 1.0 之间,反映了单个单词的相对重要性。

这三个类都能将文本转换为小写、去除标点符号、去除停用词、将句子拆分为单个单词等,还支持 n - 元语法(n - grams),即将两个或多个连续的单词组合视为一个单词。使用 n - 元语法可以提高文本分类模型的准确性,但会增加内存消耗和训练时间。

1.1 CountVectorizer 示例

以下是一个使用 CountVectori

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值