字符串相似度算法(编辑距离Levenshtein Distance)

最新推荐文章于 2023-09-18 14:41:14 发布

原创

最新推荐文章于 2023-09-18 14:41:14 发布 · 7.7k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #实体解析 #相似度

Levenshtein距离是一种衡量两个字符串之间相似度的算法，由Vladimir Levenshtein在1965年提出。该算法广泛应用于DNA分析、拼字检查、语音识别和抄袭检测等领域。通过计算编辑距离，可以找到将一个字符串转换为另一个所需的最少操作数。本文介绍了算法原理，展示了Java实现，并讨论了其在处理长字符串时的空间复杂度问题。

什么是 Levenshtein

编辑距离（Edit Distance），最先是由俄国科学家Vladimir Levenshtein在1965年发明，用他的名字命名，又称Levenshtein距离。是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如：将 jary 转成 jerry

jary --- jery (a->e)

jery --- jerry ( ->r)

应用场景

DNA分析: 将DNA的一级序列如β-球蛋白基因的第一个外显子（Exon）转化为分子“结构图”，然后由所得“结构图”提取图的不变量，如分子连接性指数．以图的不变量作为自变量，再由相似度计算公式或距离公式进行相似度计算，其相似度的大小显示不同物种间亲缘关系的远近程度，运用这种方法对人、猴及鼠等8个物种的β-球蛋白基因的第一个外显子的相似度进行计算，所得结果与生物学中的进化树符合得较好。

拼字检查：将每个词与词典中的词条比较，英文单词往往需要做词干提取等规范化处理，如果一个词在词典中不存在，就被认为是一个错误，然后试图提示N个最可能要输入的词——拼写建议。常用的提示单词的算法就是列出词典中与原词具有最小编辑距离的词条。

语音辨识：语音识别技术，也被称为自动语音识别Automatic SpeechRecognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

然后以此作为系统输入，和你的语料库进行对比。就可以利用最小编辑距离来匹配识别。

抄袭侦测：串匹配算法是程序代码抄袭检测中标记匹配的重要算法，传统的模式匹配无法准确解决这个问题。

将原文本转化成能够描述程序特征的标记，这个标记可以是字符串、向量、xml文档等。然后用串匹配算法实现对标记序列的匹配查找，计算出相似度的值。大多数的抄袭检测系统都会给出这个值，一般来说，相似度越大说明抄袭的可能性越大。

实现原理

假设我们确定了两个字符串str1=“ste1“, str2=”ste2“。

1. 将两个字符串分别写到行和列中，第一行和第一列的值从0开始增长。

		s	t	e	c	a	i	1
	0	1	2	3	4	5	6	7
s	1
t	2
e	3
c	4
a	5
i	6			</

最低0.47元/天解锁文章

		s	t	e	c	a	i	1
	0	1	2	3	4	5	6	7
s	1
t	2
e	3
c	4
a	5
i	6			</

		s	t	e	c	a	i	1
	0	1	2	3	4	5	6	7
s	1
t	2
e	3
c	4
a	5
i	6			</

字符串相似度算法(编辑距离Levenshtein Distance)

什么是Levenshtein

应用场景

实现原理

1 条评论

什么是 Levenshtein

		s	t	e	c	a	i	1
	0	1	2	3	4	5	6	7
s	1
t	2
e	3
c	4
a	5
i	6			</