TF-IDF介绍及Python实现文本聚类

TF-IDF 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中
一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但
同时会随着它在语料库中出现的频率成反比下降。TF-IDF 加权的各种形式常被搜
索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了 TF-IDF 以外,
因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果
中出现的顺序。
词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字
通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语
在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

逆向文件频率 (inverse document frequency, IDF) IDF 的主要思想是:如果包含词条 t 的文档
越少, IDF 越大,则说明词条具有很好的类别区分能力。某一特定词语的 IDF,可以由总文件
数目除以包含该词语之文件的数目,再将得到的商取对数得到。

接下来,使用tf-idf方法结合kmeans聚类尝试一个文本聚类实验,使用的为一个json文件,内含文件序号及文本内容。

# python3.6.4
from sklearn import cluster
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
def execute_c
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值