TF-IDF算法：文本挖掘中的经典权重计算利器

最新推荐文章于 2025-10-23 21:17:26 发布

原创

最新推荐文章于 2025-10-23 21:17:26 发布 · 1.1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#tf-idf #算法 #其他

文章目录

一、这个算法到底解决了什么问题？

（各位同学先别急着关页面！）咱们每天面对海量文本数据时，最头疼的问题就是：如何快速找到真正有价值的信息？ 举个栗子🌰：当你在搜索引擎输入"苹果"时，系统怎么判断你是想找水果还是手机品牌？

这就是TF-IDF算法的看家本领——它像一位经验老道的图书管理员，能精准识别文档中的关键特征词。2000年初我在参与新闻分类系统开发时，就靠它实现了80%以上的分类准确率（当时可算业界领先水平）！

二、算法原理拆解（小学生都能懂版）

1. TF（词频）——存在感指数

计算公式：TF = 某个词在文档中出现的次数 / 文档总词数

举个真实案例：某手机评测文档共1000字，其中"续航"出现15次，那TF值就是0.015。但单看TF会出大问题——像"的"、"是"这些高频词会霸榜！

2. IDF（逆文档频率）——稀缺性系数

计算公式：IDF = log(总文档数 / 包含该词的文档数 + 1)

（敲黑板！！！）这个+1是为了防止除零错误。假设语料库有1万篇文档，"手机"出现在800篇中，IDF就是log(10000/800)≈2.30

3. TF-IDF = TF × IDF

通过这个乘法操作，同时考虑词语的局部重要性和全局区分度。那些在少数文档中高频出现的词，就会获得高权重！

三、手把手Python实现（含隐藏坑点）

import math
from collections import defaultdict

class TFIDF:
    def __init__(self, docs):
        self.docs = docs
        self.doc_count = len(docs)
        self

最低0.47元/天解锁文章