TF-IDF算法

1.算法思路

通常情况下,如果某个词很重要,它在某一篇文章中出现的频率相对来说是比较高的。所以,可以通过"词频"(Term Frequency,缩写为TF)进行统计。但是,像”的“、”是“等停用词几乎在所有文章中出现的次数都挺高,但却没有什么实际的意义。相反,如果某个词在其他文章中比较少见,但是它在某一篇文章中多次出现,那么它就很可能是这篇文章的关键词。

所以,就需要在词频的基础上引入权重的概念——即“逆文档频率”(Inverse Document Frequency,缩写为IDF)。对于几乎在所有文章中都常见的词语赋予较小的权重,对于在特定文章中才常见的词语赋予较高的权重。

有了"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。在某一篇文章中,某些词语的TF-IDF值越大,就说明了这些词语在文章中越关键。所以,TF-IDF值排在最前面的几个词,就是这篇文章的关键词

2.算法步骤

(1) 计算词频(TF)

词 频 ( T F ) = 某 个 词 语 在 文 章 中 出 现 的 次 数 词频(TF) = 某个词语在文章中出现的次数 (TF)=

(2) 词频标准化

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

词 频 ( T F ) = 某 个 词 语 在 文 章 中 出 现 的 次 数 文 章 的 总 词 语 数 词频(TF) = \frac{某个词语在文章中出现的次数}{文章的总词语数} (TF)=

(3) 计算逆文档频率(IDF)

逆 文 档 频 率 ( I D F ) = l o g ( 语 料 库 文 档 总 数 包 含 该 词 的 文 档 数 + 1 ) 逆文档频率(IDF) = log(\frac{语料库文档总数}{包含该词的文档数+1}) (IDF)=log(+1)

注:

  1. 分母+1是为了避免分母为0
  2. 包含该词语的文档数越多,说明该词语越常见,逆文档率就越小,也说明该词语很可能不是关键词
(4)计算TF-IDF

T F − I D F = 词 频 ( T F ) × 逆 文 档 频 率 ( I D F ) TF-IDF = 词频(TF) \times 逆文档频率(IDF) TFIDF=(TF)×(IDF)

注:

某个词语的TF-IDF值越大,说明该词语越关键

参考文章

  1. 《基于 TF-IDF 中文文本分类实现》
  2. 《基于 Spark 的并行贝叶斯垃圾邮件分类系统》
  3. http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
  4. https://www.cnblogs.com/justcooooode/p/7831157.html
  5. https://blog.youkuaiyun.com/xuchaoxin1375/article/details/110726938
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值