TF-IDF与TfidfVectorizer

本文介绍了TF-IDF和CountVectorizer在文本挖掘中的关键概念。TF衡量词在文档中的频率,IDF则降低常见词的影响。TF-IDF结合两者,筛选重要词汇。CountVectorizer将文本转化为词频矩阵,而TfidfVectorizer则进一步计算IDF权重,实现文本向量化。参数如min_df、max_df等控制词汇表构建,stop_words用于停用词过滤。

1 TF

Term Frequency :衡量一个单词在一个文档中出现的频率,即==该单词在一个文档中出现的次数/该文档中总共的单词数。

在这里插入图片描述

2 IDF
Inverse Document Frequency:当一个单词在跨文档中出现多次时,该参数用来降低其作用。 一个单词出现在很少的文档中时,该单词有较高的IDF分。反之,如果一个单词在各文档中出现频繁,该单词就有低的IDF分,如英语单词‘a’、‘is’。

IDF==文档的总数量/该单词出现的文档数量。

在这里插入图片描述

3 TF-IDF

TF-IDF倾向于过滤掉常见的词语,保留重要的词语。TF-IDF分数越高,表示单词在一个文档中出现频繁(TF高),但在跨多文档中出现不是很频繁(IDF高)。
在这里插入图片描述

4 CountVectorizer

CountVectorizer 类会将文本中的词语转换为词频矩阵TF。也就是通过分词后将所有的文档中的全部词作为一个字典(就是类似于新华字典这种)。然后将每一行的词用0,1矩阵来表示。并且每一行的长度相同,长度为字典的长度,在词典中存在,置为1,否则,为0。

from sklearn.feature_extrac

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI强仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值