-
文档分类
对文档进行分类即对文本信息进行聚类。文本聚类是聚类算法在文本上的应用。由于聚类算法针对的是数学数据,要计算出样本点之间的“距离”。所以首先,我们要将文本数据转化为数学信息。可以使用TF-IDF加权技术计算单个词的权值。
TF-IDF常用于咨询检索与文本挖掘,用于估计某一个词对于文件集中某一文件的重要程度。TF-IDF原理是词的重要性与它在该文件出现次数成正比,与它在文件集中出现的次数成反比。
对于英文文本,每一个英文单词可以当做一个词。而对于中文文本,则需要先用分词技术对文本分词。这时已经将文本中的字词转换为矩阵形式表示,可以用k-means算法求出距离了。
-
k-means文档分类步骤
用k-means进行文档分类可分为以下步骤:
- 分词。对于含有中文的文本,应首先用jieba等库进行分词处理。
- 权重计算。在计算前要进行词频统计,并过滤停用词。如“了”、“的“”等词出现次数多且对文本分类无帮助,应先过滤。再用TF-IDF选取特征项。
- 进行k-means聚类,显示结果。
-
简单实