TF-IDF与TfidfVectorizer

最新推荐文章于 2024-12-22 12:57:53 发布

原创

最新推荐文章于 2024-12-22 12:57:53 发布 · 6.9k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#sklearn #机器学习 #自然语言处理

本文介绍了TF-IDF和CountVectorizer在文本挖掘中的关键概念。TF衡量词在文档中的频率，IDF则降低常见词的影响。TF-IDF结合两者，筛选重要词汇。CountVectorizer将文本转化为词频矩阵，而TfidfVectorizer则进一步计算IDF权重，实现文本向量化。参数如min_df、max_df等控制词汇表构建，stop_words用于停用词过滤。

1 TF

Term Frequency :衡量一个单词在一个文档中出现的频率，即==该单词在一个文档中出现的次数/该文档中总共的单词数。

在这里插入图片描述

2 IDF
Inverse Document Frequency：当一个单词在跨文档中出现多次时，该参数用来降低其作用。一个单词出现在很少的文档中时，该单词有较高的IDF分。反之，如果一个单词在各文档中出现频繁，该单词就有低的IDF分，如英语单词‘a’、‘is’。

IDF==文档的总数量/该单词出现的文档数量。

在这里插入图片描述

3 TF-IDF

TF-IDF倾向于过滤掉常见的词语，保留重要的词语。TF-IDF分数越高，表示单词在一个文档中出现频繁（TF高），但在跨多文档中出现不是很频繁（IDF高）。
在这里插入图片描述

4 CountVectorizer

CountVectorizer 类会将文本中的词语转换为词频矩阵TF。也就是通过分词后将所有的文档中的全部词作为一个字典（就是类似于新华字典这种）。然后将每一行的词用0，1矩阵来表示。并且每一行的长度相同，长度为字典的长度，在词典中存在，置为1，否则，为0。

from sklearn.feature_extrac

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI强仔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。