tf-idf的主要思想是:如果某个词或者某个短语再一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 ti-idf 的作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度 Tf term frequency 词的频率 出现的次数 idf 逆文档频率。inverse document frequency。 log(总文档数量/该词出现的文档数量) tf*idf 重要性程度。值越大 越重要 越重要越能反应文章的主题