- TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。IDF(x)=logNN(x)IDF(x) = log\frac{N}{N(x)}IDF(x)=logN(x)N
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf = True, max_df = 0.5)
vectorizer = tfidf.fit_transform(corpus)
-
stop_words:string {‘english’}, list, or None(default)
english,用于英语内建的停用词列表
list,该列表被假定为包含停用词,列表中的所有词都将从令牌中删除
None,不使用停用词
-
max_df: float in range [0.0, 1.0] or int, optional, 1.0 by default
当构建词汇表时,严格忽略高于给出阈值的文档频率的词条,语料指定的停用词。如果是浮点值,该参数代表文档的比例,整型绝对计数值。
-
min_df:float in range [0.0, 1.0] or int, optional, 1.0 by default
当构建词汇表时,严格忽略低于给出阈值的文档频率的词条,语料指定的停用词。如果是浮点值,该参数代表文档的比例,整型绝对计数值。
-
max_features: optional, None by default
构建一个词汇表,仅考虑max_features–按语料词频排序
本文深入探讨了TF-IDF算法的原理与应用,包括词频(TF)和逆文档频率(IDF)的概念,以及如何使用sklearn库中的TfidfVectorizer进行文本特征提取。详细解释了参数设置如停用词列表、最大文档频率、最小文档频率和最大特征数的作用。
267

被折叠的 条评论
为什么被折叠?



