TF-IDF算法：从文本中发现价值的黄金法则

networknomad

于 2025-05-18 20:18:52 发布

阅读量1k

点赞数 19

CC 4.0 BY-SA版权

文章标签： tf-idf 算法其他

本文链接：https://blog.youkuaiyun.com/networknomad/article/details/148049263

文章目录

一、这个算法能解决什么问题？（灵魂拷问）

当我们面对海量文本数据时（比如搜索引擎的网页库），如何快速找到最有价值的信息？这就是TF-IDF算法大显身手的时候！它就像文本挖掘领域的"黄金矿工"，能精准定位文档中的关键词，帮我们过滤掉无意义的噪音词（比如"的"、"是"这类高频但无实际含义的词）。

举个真实案例：某电商平台的商品评论分析系统，使用TF-IDF算法后，负面评价识别准确率提升了37%！因为算法能自动识别出"质量差"、"退货"等关键负面词汇。

二、算法原理拆解（手把手教学）

2.1 核心思想

TF-IDF = TF * IDF （这个乘法关系是精髓！！！）

TF（词频）：某个词在文档中出现的频率
IDF（逆文档频率）：衡量词语的稀缺性

2.2 数学公式详解（重点标记）

TF(t,d) = 词t在文档d中出现的次数 / 文档d的总词数
IDF(t) = log(总文档数 / 包含词t的文档数 + 1) 
TF-IDF(t,d) = TF(t,d) * IDF(t)

注意这里的**+1**（防除零小技巧）和log函数（防止数值爆炸）都是关键细节！

2.3 举个栗子🌰

假设我们有3篇文档：

“苹果手机好用”
“苹果电脑性能强”
“香蕉牛奶营养好”

计算"苹果"在文档1中的TF-IDF值：

TF = 1/3 ≈ 0.33
IDF = log(3/(2+1)) = log(1) = 0 → 这里用自然对数
TF-IDF = 0.33 * 0 = 0

（惊不惊喜？）虽然"苹果"在文档1中出现，但因为它在其他文档也频繁出现，最终TF-IDF值反而为0！这说明算法能有效过滤常见词。

三、实战应用场景（真实案例）

3.1 搜索引擎排序

Google早期排名算法就大量使用TF-IDF。网页中TF-IDF值高的词会被视为主题关键词，直接影响搜索结果的排序。

3.2 文本分类

在新闻分类中，通过计算各类别文档的TF-IDF特征向量，可以使用余弦相似度进行自动分类。准确率可达85%以上！

3.3 推荐系统

某视频平台用TF-IDF提取用户评论关键词，结合观看记录生成推荐列表，使点击率提升22%。

四、Python代码实现（含注释版）

import math
from collections import defaultdict

# 文档集样例
docs = [
    "苹果 手机 好用",
    "苹果 电脑 性能强",
    "香蕉 牛奶 营养好"
]

# 预处理：分词后的文档列表
doc_words = [doc.split() for doc in docs]

# 计算TF
def compute_tf(doc):
    tf = defaultdict(float)
    total_words = len(doc)
    for word in doc:
        tf[word] += 1/total_words
    return tf

# 计算IDF
def compute_idf():
    idf = defaultdict(float)
    total_docs = len(doc_words)
    # 统计包含每个词的文档数
    doc_count = defaultdict(int)
    for doc in doc_words:
        unique_words = set(doc)
        for word in unique_words:
            doc_count[word] += 1
    # 计算IDF
    for word, count in doc_count.items():
        idf[word] = math.log(total_docs / (count + 1))
    return idf

# 主程序
idf = compute_idf()
for idx, doc in enumerate(doc_words):
    tf = compute_tf(doc)
    print(f"文档{idx+1}的TF-IDF值：")
    for word in set(doc):
        tfidf = tf[word] * idf[word]
        print(f"{word}: {tfidf:.4f}")