Transformer实战(23)——使用SBERT进行文本聚类与语义搜索
0. 前言
我们已经学习了如何利用在 NLI (Natural Language Inference) 数据集上微调模型进行零样本学习。接下来,将学习如何通过语义文本聚类 (Text Clustering) 和语义搜索 (Semantic Search) 进行少样本或单样本学习。
1. 使用 SBERT 进行文本聚类
对于聚类算法,我们需要一个适合文本相似性的模型。本节将使用 paraphrase-distilroberta-base-v1 模型。首先加载 Amazon Polarity 数据集,用于文本聚类。该数据集包含从亚马逊网站上收集的超过 3500 万条评论,其中包括包括产品信息、用户信息、用户评分和用户评价。
1.1 文本聚类
(1) 首先,随机打乱数据,从中选择 10000 条评论:
import pandas as pd
订阅专栏 解锁全文
4604

被折叠的 条评论
为什么被折叠?



