用bert模型对句子或词进行向量化,然后用sklearn比较其相似度:
# -*- coding:utf-8 -*-
from bert_serving.client import BertClient
from sklearn.metrics.pairwise import cosine_similarity
# 先命令行启动服务
# bert-serving-start -model_dir C:\Users\jason\PycharmProjects\code\chinese_L-12_H-768_A-12 -num_worker=1
class Encoding(object):
def __init__(self):
self.server_ip = "127.0.0.1"
self.bert_client = BertClient(ip=self.server_ip)
def encode(self, query):
tensor = self.bert_client.encode([query])
return tensor
def query_similarity(self, query_list):
tensors = self.bert_client.encode(query_list)
return cosine_similarity(tensors)[0][1]
s1 = "我们今天所取得的成绩离不开与Qualcomm Technologies等同样致力于实现上述价值主张的行业领军企业的密切合作。"
s2 = "康宁光通信无线产品管理副总裁Michelle Engarto表示:“康宁与Qualcomm Technologies开展5G毫米波RAN合作是为了给增值创新提供一条基准线。"
s3 = "OPPO副总裁与全球销售总裁吴强表示:“OPPO与Qualcomm Technologies一直保持紧密合作关系。"
s4 = "此外,两家公司正与广和通合作开发 M.2 模块,该模块经过优化,可与英特尔客户端平台集成。"