文本聚类demo

本文介绍了一种使用K-means聚类方法对文本语料进行类别挖掘的实践过程,包括数据预处理、特征提取及聚类分析,探讨了不同聚类方法的效果,并提出了改进方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

由于工作需要,使用了聚类方法在文本语料中挖掘类别信息,下面是一个demo,供大家参考。实验数据由于公司原因不便公开。

实验步骤:

1、 排序去重,经过排序去重后数据从10万条变为3万条。
2、 结巴分词。
3、 特征提取,使用平滑后的tf-idf作为特征,为每个用户问题构建特征向量,采用了scikit-learn 中的类 TfidfVectorizer。
4、 采用了两种聚类方法K-means 。
K-means:算法的优点是收敛速度快,缺点是聚类形状在空间中是凸的。

实验代码:

github代码:https://github.com/xlniu/Text-Clustering

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
from sklearn.cluster import KMeans

# 输入输出文件
fin = open('user_question.txt', 'r') # 需要聚类的语料,每行一个句子
fout = open('result.txt'<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值