Transformer实战（23）——使用SBERT进行文本聚类与语义搜索

盼小辉丶

已于 2025-11-27 17:20:00 修改

阅读量1.7k

点赞数 116

CC 4.0 BY-SA版权

分类专栏： Transformer从入门到项目实战文章标签： transformer 聚类深度学习 pytorch

于 2025-10-27 08:47:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/LOVEmy134611/article/details/147907242

Transformer从入门到项目实战专栏收录该内容

33 篇文章 ¥29.90 ¥99.00

订阅专栏

Transformer实战（23）——使用SBERT进行文本聚类与语义搜索

0. 前言

我们已经学习了如何利用在 NLI (Natural Language Inference) 数据集上微调模型进行零样本学习。接下来，将学习如何通过语义文本聚类 (Text Clustering) 和语义搜索 (Semantic Search) 进行少样本或单样本学习。

1. 使用 SBERT 进行文本聚类

对于聚类算法，我们需要一个适合文本相似性的模型。本节将使用 paraphrase-distilroberta-base-v1 模型。首先加载 Amazon Polarity 数据集，用于文本聚类。该数据集包含从亚马逊网站上收集的超过 3500 万条评论，其中包括包括产品信息、用户信息、用户评分和用户评价。

1.1 文本聚类

(1) 首先，随机打乱数据，从中选择 10000 条评论：

import pandas as pd

了解本专栏

评论 71

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

盼小辉丶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。