用sklearn结合bert对中文句子聚类

本文介绍了如何结合Python的sklearn库与预训练的BERT模型,对中文句子进行有效的聚类分析。首先,通过读取CSV文件获取数据,然后利用BERT进行文本特征提取。接着,运用sklearn的聚类算法(如KMeans)对BERT得到的向量进行处理,最终实现对中文文本的智能归类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from sklearn.cluster import KMeans
from bert_serving.client import BertClient
import csv

# 先命令行启动服务
# bert-serving-start -model_dir C:\Users\jason\PycharmProjects\code\chinese_L-12_H-768_A-12 -num_worker=1
'''kmeans聚类所有跟合作有关的句子成3类'''

filename = "sentence_rela_hezuo.csv"

with open(filename, "r", newline='', encoding='utf-8-sig') as f:
    with open("cluster3_hezuo_0.txt", "a", newline='', encoding='utf-8') as f0:
        with open("cluster3_hezuo_1.txt", "a", newline='', encoding='utf-8') as f1:
            with open("cluster3_hezuo_2.txt", "a", newline='', encoding='utf-8') as f2:
                with open("cluster3_hezuo_center.txt", "a", newline='', encoding='utf-8') as fc:
                    f_reader = csv.reader
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值