TF-IDF的主要思想是: 如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
实际情况中,由于多个文本之间没有相似度,因此无法用IDF来衡量是否为关键词,且短文本中TF加停用词典也有很好的效果。
更多详细讲解,点击查看 TF-IDF算法介绍及实现
TF-IDF的主要思想是: 如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
实际情况中,由于多个文本之间没有相似度,因此无法用IDF来衡量是否为关键词,且短文本中TF加停用词典也有很好的效果。
更多详细讲解,点击查看 TF-IDF算法介绍及实现