提取关键词
现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。
1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。
2、停用词:结果你肯定猜到了,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop words),表示对找到结果毫无帮助、必须过滤掉的词。
3、IDF :最常见的词("的"、"是"、"在")给予最小的权重,
较常见的词("中国")给予较小的权重,
较少见的词("蜜蜂"、"养殖")给予较大的权重。
这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),
它的大小与一个词的常见程度成反比。
4、TF-IDF:"词频"(TF)和"逆文档频率"(IDF)以后,两个值相乘,得到了一个词的TF-IDF值。
某个词对文章的重要性越高,它的TF-IDF值就越大。
所以,排在最前面的几个词,就是这篇文章的关键词。
如果某个词