TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于自然语言处理和文本挖掘的常用算法。它的思想是:在一个文档集合中,如果一个词在一篇文档中出现的频率越高,并且在其他文档中出现的频率越低,那么这个词就越重要。
TF-IDF的具体计算方法如下:
对于一个给定的词w,它在一篇文档d中出现的频率被定义为TF(w,d),并计算如下:
TF(w,d)=词w在文档d中出现的次数/文档d中所有词的总数
对于一个给定的词w,它在整个文档集合D中出现的频率被定义为DF(w),并计算如下:
DF(w)=包含词w的文档数/文档总数
最后,对于一个给定的词w,它的TF-IDF值被计算如下:
TF-IDF(w,d)=TF(w,d) * log(DF(w))
TF-IDF算法通常用于提取文本信息的关键词,或者用于文本的相似度计算。