9、文本分类：从预处理到实际应用

最新推荐文章于 2025-09-26 10:09:32 发布

会议雕塑

最新推荐文章于 2025-09-26 10:09:32 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战指南文章标签：文本分类预处理 CountVectorizer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/pandas7gardener/article/details/151604766

机器学习实战指南专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本分类：从预处理到实际应用

1. 文本分类前的准备

在训练文本分类模型之前，需要将文本转换为数字，这个过程称为向量化。常见的向量化技术是将文本样本表示为行，训练文本中的单词表示为列，行中的数字是单词计数，每行的最后一个数字是标签（0 表示负面，1 表示正面）。

在向量化之前，通常需要对文本进行清理，包括将字符转换为小写、去除标点符号，还可以选择去除停用词（如“the”“and”等对结果影响较小的常用词）。清理后的句子会被拆分为单个单词（分词），用于生成类似上述的数据集。

Scikit - Learn 提供了三个类来处理文本清理和向量化的主要工作：
- CountVectorizer ：从训练文本的单词语料库中创建字典（词汇表），并生成单词计数矩阵。
- HashingVectorizer ：使用单词哈希而不是内存中的词汇表来生成单词计数，更节省内存。
- TfidfVectorizer ：根据提供的单词创建字典，并生成类似的矩阵，但矩阵中包含的是词频 - 逆文档频率（TFIDF）值，范围在 0.0 到 1.0 之间，反映了单个单词的相对重要性。

这三个类都能将文本转换为小写、去除标点符号、去除停用词、将句子拆分为单个单词等，还支持 n - 元语法（n - grams），即将两个或多个连续的单词组合视为一个单词。使用 n - 元语法可以提高文本分类模型的准确性，但会增加内存消耗和训练时间。

1.1 CountVectorizer 示例

以下是一个使用 CountVectori

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。