TF-IDF(Term Frequency-Inverse Document Frequency)算法是常用的一种文本关键词或者文本特征的提取方法。相比于单单考虑单词的出现频率(TF),TF-IDF引入了逆文档频率(IDF),使得我们提取的关键词更加有代表性,而代表性也是TF-IDF方法关注的焦点。
TF-IDF理论
其主要思想是:如果在一篇文章中一个词的出现频率高,并且语料库中其他文章包含这个词的概率小,那么这个词可以被选作关键词使用。
接下来,我们详细讲述其原理:
-
在一篇文章中出现的频率(Term Frequency)高的词应该比出现频率低的词更有代表性。
TF=ni∑niTF = \dfrac{n_i}{\sum n_i}TF=∑nini
nin_ini:一篇文章中一个词出现的次数
∑ni\sum n_i∑ni:这篇文章总词数可以看出一个词的TF值随着它在这篇文章中出现频率的增加而增加
-
在其他文章出现的频率(Inverse Document Frequency)很少的词应该比出现频率高的词更有代表性。