1 TF
Term Frequency :衡量一个单词在一个文档中出现的频率,即==该单词在一个文档中出现的次数/该文档中总共的单词数。

2 IDF
Inverse Document Frequency:当一个单词在跨文档中出现多次时,该参数用来降低其作用。 一个单词出现在很少的文档中时,该单词有较高的IDF分。反之,如果一个单词在各文档中出现频繁,该单词就有低的IDF分,如英语单词‘a’、‘is’。
IDF==文档的总数量/该单词出现的文档数量。

3 TF-IDF
TF-IDF倾向于过滤掉常见的词语,保留重要的词语。TF-IDF分数越高,表示单词在一个文档中出现频繁(TF高),但在跨多文档中出现不是很频繁(IDF高)。

4 CountVectorizer
CountVectorizer 类会将文本中的词语转换为词频矩阵TF。也就是通过分词后将所有的文档中的全部词作为一个字典(就是类似于新华字典这种)。然后将每一行的词用0,1矩阵来表示。并且每一行的长度相同,长度为字典的长度,在词典中存在,置为1,否则,为0。
from sklearn.feature_extrac

本文介绍了TF-IDF和CountVectorizer在文本挖掘中的关键概念。TF衡量词在文档中的频率,IDF则降低常见词的影响。TF-IDF结合两者,筛选重要词汇。CountVectorizer将文本转化为词频矩阵,而TfidfVectorizer则进一步计算IDF权重,实现文本向量化。参数如min_df、max_df等控制词汇表构建,stop_words用于停用词过滤。
最低0.47元/天 解锁文章
841

被折叠的 条评论
为什么被折叠?



