1 TF-IDF TF=某个词在文档中出现的频次文档的总词数 IDF=log(语料库中的总文档数出现该词的文档数+1) TF−IDF=TF∗IDF 引入IDF是为了消除该词的共性,增强该词的特性。如果这个词只在这篇文档中出现,那这个词就很能代表该篇文档。 #