文本分析的核心：TF-IDF向量及其应用

最新推荐文章于 2025-08-13 19:21:33 发布

原创最新推荐文章于 2025-08-13 19:21:33 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#TF-IDF向量 #文本分析 #信息检索 #词频统计 #scikit-learn

文本分析的核心：TF-IDF向量及其应用

背景简介

在自然语言处理（NLP）和文本挖掘领域，文本分析是一个核心任务。如何从文本中提取出有用的信息，对于理解和处理自然语言至关重要。本章内容将介绍一种常用的文本分析技术：TF-IDF向量及其在文本处理中的应用。

TF-IDF向量的定义

TF-IDF向量是信息检索领域中的一项重要技术，它通过考虑单词在单个文档中的频率（TF）和在整个文档集合中的逆文档频率（IDF），来评估单词的重要性。TF-IDF向量的核心思想是，一个词在某文档中出现的频率越高，且在其他文档中出现的频率越低，那么这个词对该文档的重要性越大。

TF-IDF的计算过程

Term Frequency（TF） ：单词在给定文档中出现的次数。通常，为了减少长文档中常见单词的影响，会用文档中单词出现次数除以文档中所有单词的出现次数之和，从而得到归一化的词频。
Inverse Document Frequency（IDF） ：单词在所有文档中的分布情况。计算公式通常为文档总数除以包含该单词的文档数的对数。IDF值越大，说明该单词在语料库中的分布越稀疏，即越是罕见的单词，其IDF值越大。
TF-IDF值 ：将TF和IDF相乘得到每个单词的TF-IDF值，从而得到整个文档的TF-IDF向量。

使用TF-IDF进行文本向量化

文本向量化是将文本转化为机器可读的数值形式的过程。TF-IDF向量可以作为文档的特征向量，广泛应用于文本分类、关键词提取等任务中。本章通过一个例子演示了如何手动计算TF-IDF值，并利用scikit-learn库中的 CountVectorizer 类自动化地生成TF-IDF向量。

手动计算TF-IDF向量

from collections import Counter
import numpy as np

# 示例文档
docs = ["Algorithmic bias has been cited in cases ranging from election outcomes to the spread of online hate speech.",
        "Algorithmic bias describes systematic and repeatable errors in a computer system that create unfair outcomes."]

# 分词并计算词频
tokens = [doc.lower().split() for doc in docs]
counts = [Counter(doc) for doc in tokens]

# 计算IDF值
unique_words = set(word for doc in counts for word in doc)
total_docs = len(docs)
idfs = {word: np.log(total_docs / (1 + len([doc for doc in counts if word in doc]))) for word in unique_words}

# 计算TF-IDF值
tf_idf_vectors = []
for doc_counts in counts:
    tf_idf_vector = {word: count * idfs[word] for word, count in doc_counts.items()}
    tf_idf_vectors.append(tf_idf_vector)

使用scikit-learn进行自动向量化

from sklearn.feature_extraction.text import CountVectorizer

# 创建一个CountVectorizer实例
vectorizer = CountVectorizer()

# 计算TF-IDF向量
count_vectors = vectorizer.fit_transform(docs)

# 获取词汇表
vocabulary = vectorizer.get_feature_names_out()

# 将稀疏矩阵转换为密集矩阵形式
dense_count_vectors = count_vectors.toarray()