1.TF-IDF
(Term Frequency-Inverse Document Frequency, 词频-逆文本频率).
一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.
TF
T F ( 词 频 ) = 该 文 章 中 出 现 该 词 的 次 数 文 章 总 词 数 TF(词频) = \frac{该文章中出现该词的次数}{文章总词数} TF(词频)=文章总词数该文章中出现该词的次数
IDF
IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低,比如上文中的“to”。而反过来如果一个词在比较少的文本中出现,那么它的IDF值应该高。比如一些专业的名词如“Machine Learning”。这样的词IDF值应该高。一个极端的情况,如果一个词在所有的文本中都出现,那么它的IDF值应该为0。