字符串相似度匹配算法python_Python – 处理字符串相似度

本文介绍了在Python中处理字符串相似度的方法,包括使用Levenshtein库计算文本距离和通过spaCy进行语义分析。在比较商家类别与自定义类别的相似度时,发现Levenshtein仅基于文本距离可能不准确,而spaCy提供的语义相似度能提供更好的匹配效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景:

通过爬虫获取了大量的商品信息,由于爬到的商品类别是商家自定义的,现在要统一管理,把商家类别映射成自定义类别

思路:

匹配商家类别和自定义类别中每个名称的相似度,相似度大于某个阀值的,最大的自定义类别字符串则为映射目标

一、Levenshtein

使用python的Levenshtein来处理相似度

1、安装

pip install python-Levenshtein

sourceCode:https://github.com/ztane/python-Levenshtein/

2、使用

使用方法很简单,用 Levenshtein.distance 就行,直接上代码:

#!/usr/bin/python

import Levenshtein

baseCat = ['Womens Clothing & Accessories','Mens Clothing & Accessories'...]

needCampareStr = ['Masturbators','Palette','Mens Watch']

for cS in needCampareStr:

dStr = ''

distance = 999

for bS in baseCat:

cbDis = Levenshtein.distance(cS,bS)

if distance > cbDis:

distance = cbDis

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值