从“词频”到“重要性”：一文读懂机器学习中的TF-IDF算法

原创于 2025-08-13 21:41:27 发布 · 1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #tf-idf #算法

在自然语言处理（NLP）和信息检索领域，我们常常需要解决一个问题：如何衡量一个词在一段文本中“重要”的程度？

比如，当用搜索引擎查找“机器学习”时，我们希望返回的文章里，“机器学习”这个词出现的频率高，而像“的”“是”“在”这类无意义的通用词（停用词）被忽略；再比如，给一篇新闻打标签时，“世界杯”“足球”可能比“比赛”“进行”更能反映文章主题。

这时候，TF-IDF算法就登场了。它是一种简单却经典的文本特征加权方法，能帮我们量化每个词对文本主题的贡献。本文将从原理到实践，带你彻底理解这个算法。

一、TF-IDF的两大核心：TF与IDF

TF-IDF由两部分组成：词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）。前者衡量一个词在当前文本中的“局部重要性”，后者衡量这个词在整个语料库中的“全局重要性”。两者相乘，就能得到一个词在当前文本中的综合权重。

1. 词频（TF）：词在当前文本中的“存在感”

词频（TF）的定义很直观：某个词在文本中出现的次数。但直接使用原始次数会有问题——长文本可能天然包含更多词，导致统计偏差。因此，实际中常用“归一化词频”，即词的出现次数除以文本总词数。

数学表达式：
$\text{TF}(t, d) = \frac{\text{词}t\text{在文档}d\text{中出现的次数}}{\text{文档}d\text{的总词数}}$

举个例子：
假设文档A是“猫追老鼠，老鼠躲猫，猫又追老鼠”，总词数为9。其中“猫”出现了3次，“老鼠”也出现了3次，“追”和“躲”各出现2次。它们的TF分别是：

TF(猫,A)=3/9≈0.33
TF(老鼠,A)=3/9≈0.33
TF(追,A)=2/9≈0.22

2. 逆文档频率（IDF）：词在全局中的“独特性”

词频（TF）能反映词在当前文本中的频率，但无法区分“通用词”和“关键特征词”。例如，“的”在几乎所有中文文本中都会高频出现，但它对主题毫无贡献；而“量子计算”可能只在少数专业文档中出现，但对这类文档的主题至关重要。

逆文档频率（IDF）的作用就是抑制通用词，放大稀有词的权重。它的核心思想是：一个词在越多的文档中出现，说明它越可能是通用词，重要性越低；反之，出现越少，重要性越高。

数学表达式：
$\text{IDF}(t, D) = \log\left( \frac{\text{语料库中总文档数}N}{\text{包含词}t\text{的文档数}n_t + 1} \right)$

这里的“+1”是为了避免分母为0（如果语料库中没有包含词t的文档，n_t=0，此时IDF=t的权重会无穷大，显然不合理）。对数的底数可以是e（自然对数）、10或2，不影响整体趋势。

继续用上面的例子：
假设语料库有1000篇文档，其中“猫”出现在800篇，“老鼠”出现在700篇，“量子计算”只出现在10篇。则它们的IDF分别为：

IDF(猫,D)=log(1000/(800+1))≈log(1.248)≈0.22
IDF(老鼠,D)=log(1000/(700+1))≈log(1.426)≈0.36
IDF(量子计算,D)=log(1000/(10+1))≈log(90.91)≈4.51

3. TF-IDF：局部与全局的“双重投票”

最终，一个词的TF-IDF值是TF和IDF的乘积：
$\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)$

回到之前的例子（假设语料库N=1000）：

猫的TF-IDF=0.33×0.22≈0.07
老鼠的TF-IDF=0.33×0.36≈0.12
量子计算的TF-IDF=（假设它在文档A中出现1次，文档A总词数9）→ (1/9)×4.51≈0.50

显然，“量子计算”的TF-IDF值远高于“猫”和“老鼠”，即使它在文档A中只出现1次。这说明，TF-IDF能突破“频率”的局限，捕捉到对当前文本更有区分度的词。

二、TF-IDF的计算步骤：从文本到权重的实战流程

理解了原理，我们可以通过一个具体案例，走一遍TF-IDF的完整计算流程。

案例背景：

假设我们有一个小型语料库（D={d1, d2}），包含两篇文档：

d1（科技类）：“机器学习需要数学，数学是机器学习的基础”
d2（美食类）：“做蛋糕需要面粉，面粉是做蛋糕的原料”

步骤1：预处理文本

首先需要对文本进行基础清洗，包括：

分词（中文需要分词工具，如jieba；英文按空格分割）
去停用词（如“需要”“是”“的”等无意义词汇）

处理后的结果：

d1分词：[机器学习, 数学, 机器学习, 数学, 基础] → 去停后：[机器学习, 数学, 机器学习, 数学, 基础]
d2分词：[做蛋糕, 面粉, 做蛋糕, 面粉, 原料] → 去停后：[做蛋糕, 面粉, 做蛋糕, 面粉, 原料]

步骤2：计算每个词的TF（词频）

以d1为例，总词数=5：

TF(机器学习,d1)=2/5=0.4
TF(数学,d1)=2/5=0.4
TF(基础,d1)=1/5=0.2

同理，d2的总词数=5：

TF(做蛋糕,d2)=2/5=0.4
TF(面粉,d2)=2/5=0.4
TF(原料,d2)=1/5=0.2

步骤3：计算每个词的IDF（逆文档频率）

语料库总文档数N=2。需要统计每个词在多少篇文档中出现（n_t）：

机器学习：只在d1出现 → n_t=1
数学：只在d1出现 → n_t=1
基础：只在d1出现 → n_t=1
做蛋糕：只在d2出现 → n_t=1
面粉：只在d2出现 → n_t=1
原料：只在d2出现 → n_t=1

（注：如果某个词在多篇文档中出现，比如假设“数学”也在d2中出现，则n_t=2，IDF会更低。）

计算IDF：
$\text{IDF}(t,D) = \log\left( \frac{2}{n_t + 1} \right)$

代入数值（这里用自然对数ln）：

IDF(机器学习,D)=ln(2/(1+1))=ln(1)=0
（哦，这里有问题！因为n_t=1时，分母是2，结果是ln(1)=0，这会导致TF-IDF为0。显然，这是因为我们的案例语料库太小，导致统计偏差。实际中，语料库需要足够大，才能让IDF发挥作用。）

修正案例：扩大语料库

假设我们扩大语料库到D={d1, d2, d3}，其中d3是另一篇科技文档：“深度学习基于神经网络，神经网络是深度学习的核心”。

重新统计n_t：

机器学习：d1 → n_t=1
数学：d1 → n_t=1
基础：d1 → n_t=1
做蛋糕：d2 → n_t=1
面粉：d2 → n_t=1
原料：d2 → n_t=1
深度学习：d3 → n_t=1
神经网络：d3 → n_t=1
核心：d3 → n_t=1

此时，所有词的n_t=1，IDF=ln(3/(1+1))=ln(1.5)≈0.405。

计算d1中各词的TF-IDF：

机器学习：TF=2/5=0.4 → 0.4×0.405≈0.162
数学：TF=2/5=0.4 → 0.4×0.405≈0.162
基础：TF=1/5=0.2 → 0.2×0.405≈0.081

步骤4：用TF-IDF排序，提取关键词

对于一篇文档，我们可以计算所有词的TF-IDF值，然后按降序排列，取前几个作为“关键词”。例如，在d1中，“机器学习”和“数学”的TF-IDF最高，它们确实最能反映文档的科技主题。

三、TF-IDF的优缺点：何时用？何时不用？

优点：简单高效的“轻量级武器”

无需标注数据：TF-IDF仅依赖文本本身的统计信息，不需要人工标注的标签或外部知识。
计算效率高：时间复杂度为O(N*M)（N是文档数，M是平均词数），适合处理大规模文本。
可解释性强：每个词的权重直接对应其在文本中的频率和全局稀有性，容易理解。

缺点：语义感知的“盲人”

忽略词的语义关联：TF-IDF认为“苹果”和“香蕉”是完全独立的词，无法识别它们都属于“水果”类别。
对长文本不友好：长文本中，即使关键高频词（如“机器学习”在综述文章中），其TF可能被稀释，导致权重降低。
无法处理词形变化：英文中的“run”“ran”“running”会被视为不同的词，而中文的分词误差也会影响结果。

四、TF-IDF的实战工具：用Python快速实现

在实际项目中，我们很少手动计算TF-IDF，而是使用现成的库。Python的scikit-learn提供了TfidfVectorizer类，能一键完成分词、去停、TF-IDF计算全流程。

示例代码：用TfidfVectorizer提取关键词

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba  # 中文分词工具

# 示例语料库（两篇文档）
corpus = [
    "机器学习需要数学，数学是机器学习的基础",  # 文档1
    "做蛋糕需要面粉，面粉是做蛋糕的原料"       # 文档2
]

# 自定义分词函数（中文需要先分词）
def tokenize(text):
    return list(jieba.cut(text))

# 初始化TF-IDF向量化器，设置参数
tfidf = TfidfVectorizer(
    tokenizer=tokenize,  # 使用jieba分词
    stop_words=["需要", "是", "的"]  # 自定义停用词表
)

# 计算TF-IDF矩阵（行：文档，列：词，值：TF-IDF）
tfidf_matrix = tfidf.fit_transform(corpus)

# 输出结果
feature_names = tfidf.get_feature_names_out()  # 所有特征词
for i in range(len(corpus)):
    print(f"文档{i+1}的TF-IDF权重：")
    # 取出当前文档的权重向量，并排序
    weights = tfidf_matrix[i].toarray().flatten()
    sorted_indices = weights.argsort()[::-1]  # 降序排列的索引
    for idx in sorted_indices:
        if weights[idx] > 0:  # 只输出有权重的词
            print(f"{feature_names[idx]}: {weights[idx]:.4f}")

输出结果示例：

文档1的TF-IDF权重：
机器学习: 0.6055
数学: 0.6055
基础: 0.4910
文档2的TF-IDF权重：
做蛋糕: 0.6055
面粉: 0.6055
原料: 0.4910

可以看到，“机器学习”“数学”在文档1中的权重显著高于其他词，“做蛋糕”“面粉”同理，符合预期。

五、总结：TF-IDF的“前世今生”与未来

TF-IDF诞生于1972年（由Karen Spärck Jones提出），至今仍是文本处理领域的“基础工具”。尽管它无法处理语义关联（这一问题被后来的Word2Vec、BERT等模型解决），但凭借简单、高效、可解释的特点，它在短文本关键词提取、轻量级文本分类、信息检索排序等场景中依然不可替代。

下次当你需要从一堆文本中快速抓住重点时，不妨试试用TF-IDF——它可能不是最先进的，但一定是最可靠的“入门武器”。

参考资料：

Jones, K. S. (1972). A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation.
Scikit-learn官方文档：https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html