sklearn.feature_extraction

最新推荐文章于 2024-12-31 16:24:20 发布

原创最新推荐文章于 2024-12-31 16:24:20 发布 · 604 阅读

0 ·

CC 4.0 BY-SA版权

Data mining 专栏收录该内容

11 篇文章

订阅专栏

本文深入探讨了TF-IDF算法的原理与应用，包括词频（TF）和逆文档频率（IDF）的概念，以及如何使用sklearn库中的TfidfVectorizer进行文本特征提取。详细解释了参数设置如停用词列表、最大文档频率、最小文档频率和最大特征数的作用。

TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，TF和IDF。 $log\frac{N}{N(x)}$

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf = True, max_df = 0.5)
vectorizer = tfidf.fit_transform(corpus)

stop_words：string {‘english’}, list, or None(default)

english，用于英语内建的停用词列表

list，该列表被假定为包含停用词，列表中的所有词都将从令牌中删除

None，不使用停用词
max_df： float in range [0.0, 1.0] or int, optional, 1.0 by default

当构建词汇表时，严格忽略高于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值。
min_df：float in range [0.0, 1.0] or int, optional, 1.0 by default

当构建词汇表时，严格忽略低于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值。
max_features： optional， None by default

构建一个词汇表，仅考虑max_features–按语料词频排序