用sklearn比较句子或词的相似度

本文介绍如何利用BERT模型将句子或词语转换为向量,再结合sklearn库来评估它们之间的相似度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用bert模型对句子或词进行向量化,然后用sklearn比较其相似度:

# -*- coding:utf-8 -*-
from bert_serving.client import BertClient
from sklearn.metrics.pairwise import cosine_similarity
# 先命令行启动服务
# bert-serving-start -model_dir C:\Users\jason\PycharmProjects\code\chinese_L-12_H-768_A-12 -num_worker=1


class Encoding(object):
    def __init__(self):
        self.server_ip = "127.0.0.1"
        self.bert_client = BertClient(ip=self.server_ip)

    def encode(self, query):
        tensor = self.bert_client.encode([query])
        return tensor

    def query_similarity(self, query_list):
        tensors = self.bert_client.encode(query_list)
        return cosine_similarity(tensors)[0][1]


s1 = "我们今天所取得的成绩离不开与Qualcomm  Technologies等同样致力于实现上述价值主张的行业领军企业的密切合作。"
s2 = "康宁光通信无线产品管理副总裁Michelle Engarto表示:“康宁与Qualcomm Technologies开展5G毫米波RAN合作是为了给增值创新提供一条基准线。"
s3 = "OPPO副总裁与全球销售总裁吴强表示:“OPPO与Qualcomm Technologies一直保持紧密合作关系。"
s4 = "此外,两家公司正与广和通合作开发 M.2 模块,该模块经过优化,可与英特尔客户端平台集成。"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值