K-means实现中文短文本聚类

最新推荐文章于 2025-05-29 21:28:37 发布

小虎举杠

最新推荐文章于 2025-05-29 21:28:37 发布

阅读量8.4k

点赞数 6

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_43228162/article/details/85111049

本文介绍了使用jieba分词、去除停用词、TF-IDF权重计算及K-means聚类对中文短文本进行预处理和分析的详细流程。在TF-IDF计算过程中遇到溢出问题，K-means部分仍有疑惑，作者表示需要进一步学习和改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、具体流程

1.读入文本，并进行分词
2.对分词后的文本进行去除停用词
3.使用TF-IDF进行求出权重
4.通过K-means进行聚类
（由于笔者水平较低，只能用自己好理解的方法写，所以看起来很麻烦，见谅）

二、读入文本并分词

1.读入文本
（1）文本来源于搜狗新闻语料库（链接：）
（2）读入文本（代码如下）

def read_from_file(file_name):
    with open(file_name) as fp:
        words = fp.read()
    return words
words = (read_from_file("D:\\PyCharm Community Edition 2018.2.4\\python\\day20181127\\sougou_all\\互联网\\1.txt"))
words1 = (read_from_file("D:\\PyCharm Community Edition 2018.2.4\\python\\day20181127\\sougou_all\\互联网\\2.txt"))
words2 = (read_from_file("D:\\PyCharm Community Edition 2018.2.4\\python\\day20181127\\sougou_all\\互联网\\3.txt"))
words3 = (read_from_file("D:\\PyCharm Community Edition 2018.2.4\\python\\day20181127\\sougou_all\\互联网\\4.txt"))
listall = [words,words1,words2,words3]

2.进行分词
（1）安装jieba库：分词需要安装jieba库，在Pycharm里的setting里的project.interpreter里点击右上方的加号，在搜索框中输入jieba点击应用就可以了。
（2）进行分词：（代码如下）