原理
TF(Term Frequency):词频
T F = 该 词 频 数 文 档 词 语 总 数 TF = \frac{该词频数}{文档词语总数} TF=文档词语总数该词频数
IDF(Inverse Document Frequency):逆文本频率指数
I D F = log ( 文 档 总 数 出 现 该 词 文 档 数 + 1 ) IDF = \log(\frac{文档总数}{出现该词文档数+1}) IDF=log(出现该词文档数+1文档总数)
调用jieba(免训练)
from jieba.analyse import tfidf
sentence = '佛山市科技局发布关于发展佛山市人工智能项目的通知'
print(tfidf(sentence))
print(tfidf(sentence, allowPOS=('n', 'ns', 'v', 'vn'))) # 按词性筛选
print(tfidf(sentence, allowPOS=('n', 'ns', 'v', 'vn'