聚类算法实例:k-means实现文档分类(用jieba分词)

  • 文档分类

对文档进行分类即对文本信息进行聚类。文本聚类是聚类算法在文本上的应用。由于聚类算法针对的是数学数据,要计算出样本点之间的“距离”。所以首先,我们要将文本数据转化为数学信息。可以使用TF-IDF加权技术计算单个词的权值。    

TF-IDF常用于咨询检索与文本挖掘,用于估计某一个词对于文件集中某一文件的重要程度。TF-IDF原理是词的重要性与它在该文件出现次数成正比,与它在文件集中出现的次数成反比。

对于英文文本,每一个英文单词可以当做一个词。而对于中文文本,则需要先用分词技术对文本分词。这时已经将文本中的字词转换为矩阵形式表示,可以用k-means算法求出距离了。

  • k-means文档分类步骤

    用k-means进行文档分类可分为以下步骤:

  1. 分词。对于含有中文的文本,应首先用jieba等库进行分词处理。
  2. 权重计算。在计算前要进行词频统计,并过滤停用词。如“了”、“的“”等词出现次数多且对文本分类无帮助,应先过滤。再用TF-IDF选取特征项。
  3. 进行k-means聚类,显示结果。
  • 简单实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值