用sklearn结合bert对中文句子聚类

最新推荐文章于 2024-12-31 20:34:14 发布

read天空蓝

最新推荐文章于 2024-12-31 20:34:14 发布

阅读量4k

点赞数

文章标签： csv 聚类自然语言处理

本文链接：https://blog.youkuaiyun.com/scbl2017/article/details/105379419

版权

本文介绍了如何结合Python的sklearn库与预训练的BERT模型，对中文句子进行有效的聚类分析。首先，通过读取CSV文件获取数据，然后利用BERT进行文本特征提取。接着，运用sklearn的聚类算法（如KMeans）对BERT得到的向量进行处理，最终实现对中文文本的智能归类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from sklearn.cluster import KMeans
from bert_serving.client import BertClient
import csv

# 先命令行启动服务
# bert-serving-start -model_dir C:\Users\jason\PycharmProjects\code\chinese_L-12_H-768_A-12 -num_worker=1
'''kmeans聚类所有跟合作有关的句子成3类'''

filename = "sentence_rela_hezuo.csv"

with open(filename, "r", newline='', encoding='utf-8-sig') as f:
    with open("cluster3_hezuo_0.txt", "a", newline='', encoding='utf-8') as f0:
        with open("cluster3_hezuo_1.txt", "a", newline='', encoding='utf-8') as f1:
            with open("cluster3_hezuo_2.txt", "a", newline='', encoding='utf-8') as f2:
                with open("cluster3_hezuo_center.txt", "a", newline='', encoding='utf-8') as fc:
                    f_reader = csv.reader

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

read天空蓝

关注关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Bert文本聚类实践

NLP与推荐算法

02-10

1557

文本聚类探索与实践，文本分类用于聚类能行么？

基于BERTopic模型的中文文本主题聚类及可视化

Cachel Wood的博客

03-02

3422

BERTopic是一种结合了预训练模型BERT和主题建模的强大工具。它允许我们将大规模文本数据集中的文档映射到主题空间，并自动识别潜在的主题。它背后的核心思想是通过BERT模型来捕获文档的语义信息，并然后使用主题建模技术来对这些语义信息进行聚类，从而得出主题。BERTopic是一种强大的主题分析工具，它能够自动识别文本数据中的主题，而无需预先定义主题数。通过结合BERT的语义表示和传统主题建模技术，BERTopic为主题分析任务提供了一个高效而精确的解决方案。

3 条评论您还未登录，请先登录后发表或查看评论

基于Bert的文本聚类工具：BERTopic

yanqianglifei的专栏

02-21

7045

bert_文本聚类_1

Hekena的博客

09-19

903

【代码】bert_文本聚类_1。

尝试用bert做文本聚类

热门推荐

HGlyh的博客

06-14

1万+

尝试用bert做文本聚类以前文本聚类多以TF-IDF构建词权重的方法进行，在本文中尝试用bert提取的向量做文本聚类。对于bert模型，尝试提取不同层的特征，尝试对bert做fun-tune，观察相应特征对应的文本聚类的效果数据数据使用的是百度2020语言比赛的数据，该数据是标注并分类好的，所以在聚类的情况下，省去了聚类时对k值的搜索，同时可以可以根据标注好的数据和聚类得到的数据比较，从侧面评价聚类的效...

bert 新闻标题聚类

SCPmaster的博客

07-18

868

bert训练

深度解析 LDA 与聚类结合的文本主题分析实战

小高~的博客

12-31

1323

将LDA和K-Means聚类结合，实现自动化文本分类。提供了从数据预处理到模型优化的全流程指导。通过可视化和指标评估帮助选择最优模型参数。

文本聚类（二）—— KMeans 聚类

weixin_37179744的博客

10-13

9491

目录二、KMeans 聚类2.1 加载数据集2.2 数据清洗2.3 文本向量化2.4 文本聚类2.5 关键词展示2.6 判定最佳聚类数参考文档这第一篇内容中，我们介绍了 LDA 主题模型，这一篇，我们将介绍经典的 KMeans 聚类算法在文本上的表现。为了方便和前面 LDA 主题模型对比，我们依然使用同一份数据集，对数据的前期处理保持一致。二、KMeans 聚类 2.1 加载数据集 df = pd.read_csv('/content/drive/My Drive/cnews.train.txt',.

用word2vec训练中文词向量，并用kmeans算法聚类

m0_56327159的博客

10-21

1077

（1）将已经分好词的中文用word2vec转化成词向量（2）将转化后的词向量用kmeans算法进行聚类，用手肘法和轮廓系数法确定最佳聚类数。

Bert模型对文本聚类任务的应用与提升

m0_62350221的博客

12-06

1830

BERT预训练模型和KMeans结合可以有效提高文本数据的聚类分析能力，提供更具实际意义和语义相关性的聚类结果。

bert-sklearn：Google BERT模型的sklearn包装器

02-03

scikit-learn包装器对BERT进行微调一个scikit-learning包装器，可基于端口模型，以执行文本和令牌序列任务。包括可配置的MLP作为文本和文本对任务的最终分类器/回归器包括用于NER，PoS和分块任务的令牌序列分类器包括针对科学和生物医学领域的和训练模型。在尝试！安装需要python> = 3.5和pytorch> = 0.4.1 git clone -b master https://github.com/charles9n/bert-sklearn cd bert-sklearn pip install . 基本操作 model.fit(X,y)即

基于文本内容的自动文本聚类

04-04

基于文本内容的自动文本聚类技术作为文本信息挖掘技术中的核心技术之一，其目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能的大，而不同簇之间的相似度尽可能的小。本文以中文文本作为文本聚类的挖掘对象，对文本集进行了中文文本预处理、文本聚类。按照文中的方法步骤，设计了一个系统，实现了文本聚类的功能。

一种基于改进K_medoids的句子文本聚类方法

hzq20081121107的专栏

07-28

771

【方法介绍】怎么来表示两个规则描述的句子相近？我们定义一种距离，两个句子 str1，str2，代表两个之间规则的描述； str_com是str1和str2的最大公共子串，n1，n2，n0分别是str1,、str2、str_com的长度， str1、str2的距离定义为： dis(str1,str2) = 1 - 2*n0/(n1+n2); 这个距离是一个0到1之间的数，如果str...

【毕业设计】基于融合BERT模型的短文本分类算法

2301_79555157的博客

04-02

1297

毕业设计：基于融合BERT模型的短文本分类算法将BERT模型与其他分类算法相结合，提高了短文本分类的准确性和泛化能力。该算法通过利用BERT模型的预训练能力和上下文理解能力，有效地捕捉短文本中的语义信息，并结合传统分类算法进行综合分类。为计算机毕业设计提供了一个创新的方向，结合了深度学习和自然语言处理技术，为毕业生提供了一个有意义的研究课题。对于计算机专业、软件工程专业、人工智能专业和大数据专业的毕业生而言，提供了一个具有挑战性和创新性的研究课题。无论您对深度学习技术保持浓厚兴趣，还是希望探索自然

相似query(句子)聚类

gzt940726的博客

05-20

6126

相似query（句子）聚类首先说明一下，这些句子均来自一个特定的领域（如教育，娱乐明星，游戏），且无标签。先讲一下大体流程。首先对句子分词，并根据word2vec的思想，对句子进行了向量化，接着对高纬度向量表征的句子进行了PCA降维，然后用kmeans对句子进行了聚类，再利用相似度阈值的思想过滤掉了一些“噪音”句子，最后根据聚起来的相同类别的句子的高频共现词得到该类的几个标签。最终我们...

12-NLP之Bert实现文本分类

weixin_46713695的博客

11-02

2968

NLP之Bert实现文本分类

throw 烦人_烦人的简单句子聚类

weixin_26752765的博客

09-13

512

throw 烦人Making the machine understand the modalities of any language is the core of almost all the NLP tasks being undertaken. Understanding patterns in the data and being able to segregate data point...

自动摘要生成 tf-idf+doc2vec+句子聚类

God_Jn的博客

05-18

1983

多文档自动摘要 1 计划 1.了解bat文件的作用，处理文件输入 2.先完成一个主题的自动摘要，再完成多个主题的摘要 3.与专家摘要进行对比，评估 2 baseline+改进1+改进2 baseline：依次抽取10个文档中，每个文档的第一句话，组成摘要。文档格式如下： <DOC> <DOCNO> APW19981118.0276 </DOCNO> <DOCTYPE> NEWS </DOCTYPE> &lt...

学者聚类代码