文本分类:从预处理到实际应用
1. 文本分类前的准备
在训练文本分类模型之前,需要将文本转换为数字,这个过程称为向量化。常见的向量化技术是将文本样本表示为行,训练文本中的单词表示为列,行中的数字是单词计数,每行的最后一个数字是标签(0 表示负面,1 表示正面)。
在向量化之前,通常需要对文本进行清理,包括将字符转换为小写、去除标点符号,还可以选择去除停用词(如“the”“and”等对结果影响较小的常用词)。清理后的句子会被拆分为单个单词(分词),用于生成类似上述的数据集。
Scikit - Learn 提供了三个类来处理文本清理和向量化的主要工作:
- CountVectorizer :从训练文本的单词语料库中创建字典(词汇表),并生成单词计数矩阵。
- HashingVectorizer :使用单词哈希而不是内存中的词汇表来生成单词计数,更节省内存。
- TfidfVectorizer :根据提供的单词创建字典,并生成类似的矩阵,但矩阵中包含的是词频 - 逆文档频率(TFIDF)值,范围在 0.0 到 1.0 之间,反映了单个单词的相对重要性。
这三个类都能将文本转换为小写、去除标点符号、去除停用词、将句子拆分为单个单词等,还支持 n - 元语法(n - grams),即将两个或多个连续的单词组合视为一个单词。使用 n - 元语法可以提高文本分类模型的准确性,但会增加内存消耗和训练时间。
1.1 CountVectorizer 示例
以下是一个使用 CountVectori
超级会员免费看
订阅专栏 解锁全文
2685

被折叠的 条评论
为什么被折叠?



