1,TF-IDF
tf-idf的基本思想是,有个词出现的频率越高越重要,这个词在其他文档中很少出现,则越有区分度。用来提取关键词
优点:计算速度比较快,通常也符合逾期
缺点:单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)作者:山的那边是什么_
引用百度百科的解释:
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF(Term Frequency)词频:该文章中出现该词的次数除以文章总词数。
IDF(Inverse Document Frequency)逆向文档词频:IDF=log(D/Dt),即总文章数(D)除以该词出现的文章数(Dt),对商取对数(log)。比例是文章数(Dt)除以总文章数(D),而这里却是D/Dt,这也就是名字中逆的由来。
TF-IDF=TF*IDF
例如:在500篇文章中,其中一篇共分得100关键词,其中“大数据”一词出现了10次,那么该词的词频为TF=10/100=0.1;如果该词出现在100篇文章中,那么逆向文档词频为IDF=log(500/100)=1.609;
所以TF-IDF值为
TF-IDF=0.05*1.609=0.08。
关于取对数log,很多博客都没有说清 ‘底数’ 是多少,底为自然对数e
在sklearn中的使用:
from sklearn.feature_extracti