python字符串相似度去重_详解Python 字符串相似性的几种度量方法

本文介绍了字符串相似度比较的重要应用场景,如拼写纠错和文本去重,并详细讲解了编辑距离、海明距离、Jaccard距离、Jaro-Winkler距离以及余弦相似性和欧氏距离等常见度量方法。特别地,通过Python的`difflib`和`python-levenshtein`库展示了如何计算这些距离,以评估两个字符串的相似度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。

评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为levenshtein距离。海明距离是编辑距离的一种特殊情况,只计算等长情况下替换操作的编辑次数,只能应用于两个等长字符串间的距离度量。

其他常用的度量方法还有 jaccard distance、j-w距离(jaro–winkler distance)、余弦相似性(cosine similarity)、欧氏距离(euclidean distance)等。

python-levenshtein 使用

使用 pip install python-levenshtein 指令安装 levenshtein

# -*- coding: utf-8 -*-

import difflib

# import jieba

import levenshtein

str1 = "我的骨骼雪白 也长不出青稞"

str2 = "雪的日子 我只想到雪中去si"

# 1. difflib

seq = difflib.sequencematcher(none, str1,str2)

ratio = seq.ratio()

print 'difflib similarity1: ', ratio

# difflib 去掉列表中不需要比较的字符

seq = difflib.sequencematcher(lambda x: x in ' 我的雪', str1,str2)

ratio = seq.ratio()

print 'difflib similarity2: ', ratio

# 2. hamming距离,str1和str2长度必须一致,描述两个等长字串之间对应位置上不同字符的个数

# sim = levenshtein.hamming(str1, str2)

# print 'hamming similarity: ', sim

# 3. 编辑距离,描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括 插入、删除、替换

sim = levenshtein.distance(str1, str2)

print 'levenshtein similarity: ', sim

# 4.计算莱文斯坦比

sim = levenshtein.ratio(str1, str2)

print 'levenshtein.ratio similarity: ', sim

# 5.计算jaro距离

sim = levenshtein.jaro(str1, str2 )

print 'levenshtein.jaro similarity: ', sim

# 6. jaro–winkler距离

sim = levenshtein.jaro_winkler(str1 , str2 )

print 'levenshtein.jaro_winkler similarity: ', sim

输出:

difflib similarity1:  0.246575342466

difflib similarity2:  0.0821917808219

levenshtein similarity:  33

levenshtein.ratio similarity:  0.27397260274

levenshtein.jaro similarity:  0.490208958959

levenshtein.jaro_winkler similarity:  0.490208958959

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持萬仟网。

希望与广大网友互动??

点此进行留言吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值