用sklearn比较句子或词的相似度

最新推荐文章于 2024-07-08 03:35:26 发布

原创

最新推荐文章于 2024-07-08 03:35:26 发布 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #自然语言处理 #机器学习

本文介绍如何利用BERT模型将句子或词语转换为向量，再结合sklearn库来评估它们之间的相似度。

用bert模型对句子或词进行向量化，然后用sklearn比较其相似度：

# -*- coding:utf-8 -*-
from bert_serving.client import BertClient
from sklearn.metrics.pairwise import cosine_similarity
# 先命令行启动服务
# bert-serving-start -model_dir C:\Users\jason\PycharmProjects\code\chinese_L-12_H-768_A-12 -num_worker=1


class Encoding(object):
    def __init__(self):
        self.server_ip = "127.0.0.1"
        self.bert_client = BertClient(ip=self.server_ip)

    def encode(self, query):
        tensor = self.bert_client.encode([query])
        return tensor

    def query_similarity(self, query_list):
        tensors = self.bert_client.encode(query_list)
        return cosine_similarity(tensors)[0][1]


s1 = "我们今天所取得的成绩离不开与Qualcomm  Technologies等同样致力于实现上述价值主张的行业领军企业的密切合作。"
s2 = "康宁光通信无线产品管理副总裁Michelle Engarto表示：“康宁与Qualcomm Technologies开展5G毫米波RAN合作是为了给增值创新提供一条基准线。"
s3 = "OPPO副总裁与全球销售总裁吴强表示：“OPPO与Qualcomm Technologies一直保持紧密合作关系。"
s4 = "此外，两家公司正与广和通合作开发 M.2 模块，该模块经过优化，可与英特尔客户端平台集成。"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

read天空蓝

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

基于Python和Scikitlearn进行文本分析

AI天才研究院

07-10

195

作者：禅与计算机程序设计艺术 "基于Python和Scikit-learn进行文本分析" 引言 1.1. 背景介绍

应用scikit-learn做文本分类

热门推荐

Rachel Zhang的专栏

04-13

9万+

文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢！嗯，说正文。20newsgroups官网上给出了3个数据集，这里我们用最原始的20news-19997.tar.gz。分为以下几个过程： 1.加载数据集 2.提feature 3.分类{Naive Bayes,KNN,SVM} 4.聚类说明： scipy官网上有参考

参与评论您还未登录，请先登录后发表或查看评论

sklearn 相似度矩阵_利用sklearn计算文本相似性

weixin_39995351的博客

12-31

604

利用sklearn计算文本相似性，并将文本之间的相似度矩阵保存到文件当中。这里提取文本TF-IDF特征值进行文本的相似性计算。python代码：#!/usr/bin/python# -*- coding: utf-8 -*-import numpyimport osimport sysfrom sklearn importfeature_extractionfrom sklearn.feature...

word2vec相似度计算_文本相似度的一种计算方法

weixin_39968861的博客

11-24

2818

本文是作者结合资料对论文From Word Embeddings To Document Distances的理解，其中有些地方理解不到位，还希望读者能批评指正。本文首先会介绍BOW和TF-IDF，再介绍Word2Vec的词嵌套模型，然后介绍本论文的核心内容WMD，并且介绍本文提出的两种优化速度的方法，最后提出一些自己的想法并做一总结。一 BOW和TF-IDF在自然语言处理中，文本相似度是一个...

Sklearn 对比文本相似度算法

Damien_J_Scott的博客

08-12

2203

首先，使用的是 scikit-learn，关于用到的两个关键算法的详情，下面的链接会给出 TF-IDF： https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight=tf%20idf#sklearn.feature_extraction.text.TfidfVectorizer cosine_similarity： https.

sklearn 相似度矩阵_数据分析·词向量·相似度

weixin_39786141的博客

12-31

876

数据集从kaggle里下载的约5000部较受欢迎的英文电影的基本信息，包含的属性有：文字描述：title, cast, crew, genres, keywords, original_language, original_title, overview, production_companies, tagline,production_countries,spoken_languages数值参数...

Python比较两个句子相似度

得塔云的博客

03-15

1643

在Python中，你可以使用多种方法来比较两个句子的相似度。这通常涉及到自然语言处理（NLP）技术，比如词袋模型、TF-IDF权重、余弦相似度，或者使用更先进的深度学习模型，如BERT或Transformers。另外，如果你需要处理更复杂或更大规模的文本数据，或者需要更高的精度，你可能需要使用更复杂的模型，如基于深度学习的模型。这些模型通常需要大量的数据和计算资源来训练，但可以提供更好的性能。注意，这只是一个基础的例子。在实际应用中，你可能需要对文本进行预处理（如分词、去除停用词等），并可能需要调整。

使用Sklearn算法快速找出文字相似度

Sklearn中的一些预处理工具也可以用于处理文本数据，比如文本向量化（使用词袋模型、TF-IDF等方法）。 5. Sklearn在文本挖掘中的应用 Sklearn在文本挖掘中的应用广泛，尤其在文本分类、情感分析、主题模型等方面。...

[Python][sklearn] 使用from sklearn.neighbors import NearestNeighbors计算相似度

qq_31225201的博客

01-26

3552

代码如下： from sklearn.neighbors import NearestNeighbors import numpy as np X = np.array([[-1,-1], [-2,-1], [-3,-1], [1,1], [2,1], [3,2] ]) nbrs = NearestNeighbors(n_neighbor

[文本语义相似] 基于bow的余弦距离(sklearn实现)

MachineLP的专栏

04-29

591

文本相似在问答系统中有很重要的应用，如基于知识的问答系统（Knowledge-based QA），基于文档的问答系统（Documen-based QA），以及基于FAQ的问答系统（Community-QA）等。像对于问题的内容，需要进行相似度匹配，从而选择出与问题最接近，同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。 ...

sklearn文档查询

niukai1768的专栏

08-17

917

以CountVectorizer类为例，总结一下怎么查询sklearn文档 Google 阅读API，了解参数含义优点：参数有着详细的说明缺点：没有详细的用例，不知道该如何使用查看用例代码结合API，理解各个函数用法 ...

探索数据的相似性：sklearn中相似度计算方法全解析

最新发布

2401_85763639的博客

07-08

1505

在数据科学和机器学习领域，计算数据点之间的相似度是一项基本且关键的任务。scikit-learn（简称sklearn），作为Python中广受欢迎的机器学习库，提供了多种方法来进行数据的相似度计算。本文将详细介绍sklearn中用于相似度计算的方法，并提供实际的代码示例。本文的目的是帮助读者更好地理解相似度计算，并掌握在sklearn中实现这些技术的方法。通过本文，我们了解到了sklearn中不同的相似度计算方法，并提供了实际的代码示例。欧氏距离是最直观的距离度量方式，计算两点之间的直线距离。

【scikit-learn】05：sklearn文本分类及评价指标

墨竹

09-23

8073

今天看到一句话：你能留给岁月的，岁月能留给你的，除了一个更好的自己，别无其他。还能什么比这更能激励自己学习呢？在windows下安装sklearn，直接下载winpython安装就行了。自行选择32或64位。 http://sourceforge.net/projects/winpython/后面本文都把sklearn简称sk。sk已经自带了一些数据集，先看iris和digits：fro

python语义分析_python – 使用sklearn进行潜在语义分析

weixin_39586649的博客

11-26

348

我正在尝试编写一个脚本,我将计算几个文档的相似性.我想通过使用LSA来做到这一点.我找到了以下代码并稍微改了一下.我输入3个文档,然后作为输出3×3矩阵,它们之间具有相似性.我想进行相同的相似度计算,但只能使用sklearn库.那可能吗？from numpy import zerosfrom scipy.linalg import svdfrom math import logfrom numpy...

word2vec相似度计算_短文相似度匹配

weixin_39633165的博客

11-24

1451

一、原始落后的VSM网上搜索关键词“短文本 相似度”，出来的结果基本上都是以BOW（Bag of words）的VSM方案，大致流程如下：分词 —> 提取关键词 —> 计算tf或if-idf，以向量的形式替换原文本 —> 文本相似度的问题转变为计算向量相似度一开始这样的一个思路，很清晰明了，而且网上相应的资料也很多，然后就开搞吧。1、把所有短文本去掉标点符号，用jieba分词分好...

向量检索/向量相似性计算方法（持续更新ing...）

诸神缄默不语的博客

09-29

2682

本文介绍各种用于向量检索的向量相似性计算方法

【Scikit-Learn 中文文档】处理文本数据 - scikit-learn 教程 | ApacheCN

妳那伊抹微笑的专栏

12-08

1206

中文文档: http://sklearn.apachecn.org/cn/stable/tutorial/text_analytics/working_with_text_data.html 英文文档: http://sklearn.apachecn.org/en/stable/tutorial/text_analytics/working_with_text_data.html

python使用scikit-learn计算TF-IDF

和而不流

03-14

1万+

本文转载自：Eastmount大神的文章： http://www.voidcn.com/article/p-bbabkmsv-pt.html 1 Scikit-learn下载安装 1.1 简介 1.2 安装软件 2 TF-IDF基础知识 2.1 TF-IDF概念 2.2 举例说明计算 3 Scikit-Learn中计算TF-IDF 3.1 CountVectorizer ...