TF-IDF特征提取用sklearn提取tfidf特征

最新推荐文章于 2025-10-22 09:34:37 发布

原创

最新推荐文章于 2025-10-22 09:34:37 发布 · 1.7w 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#tfidf

本文介绍了如何利用sklearn库中的TfidfVectorizer进行TF-IDF特征提取，涉及词频（TF）、文件频率（DF）、逆向文件频率（IDF）的概念，并探讨了n-gram的重要性。同时，讲解了TF-IDF的计算方式和TfidfVectorizer类的使用，包括参数max_df、min_df和ngram_range的设置。

n-gram

此处的TF和IDF的公式，都是sklearn中的tfidf使用的公式。和最原始的公式会有些出入。并且根据一些参数的不同而不同。

名词的解释：
corpus：指所有documents的集合
documents：词语的有序排列。可以是一篇文章、一个句子之类。

词频（TF）

在一份给定的文件里，词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数（term count）的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）对于在某一特定文件里的词语 $t$ 来说， $tf_t$ 可表示为：