字符相似性几种度量方法

最新推荐文章于 2025-05-21 16:55:00 发布

原创最新推荐文章于 2025-05-21 16:55:00 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

自然语言处理专栏收录该内容

9 篇文章

订阅专栏

无论是做科学研究，还是工程项目，我们总是会碰上要比较字符串的相似性，比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多，到底使用哪一种方法来计算相似性，这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串相似性的方法罗列一下，仅供参考，欢迎大家补充指正。

1、余弦相似性（cosine similarity）
余弦相似性大家都非常熟悉，它是定义在向量空间模型（VSM）中的。它的定义如下：

其中，A,B为向量中间中的两个向量。
在使用它来做字符串相似性度量的时候，需要先将字符串向量化，通常使用词袋模型（BOW）来向量化。举个例子如下：

String1 = “apple”
String2 = “app”

则词包为｛’a’,’e’,’l’,’p’｝，若使用0,1判断元素是否在词包中，字符串1、2可以转化为：

StringA = [1111]
StringB = [1001]

那么，根据余弦公式，可以计算字符串相似性为：0.707。

2、欧氏距离（Euclidean distance）
欧氏距离大家非常熟悉，定义在向量空间模型中，计算使用欧氏距离公式：

3、编辑距离（edit distance）
编辑距离，有的地方也会称为Levenshtein距离，表示从一个字符串转化为另一个字符串所需要的最少编辑次数，这里的编辑是指将字符串中的一个字符替换成另一个字符，或者插入删除字符。例如上例String1通过删除’l’与’e’转化为String2，所以其最小编辑次数为2。
编辑距离的核心就是如何计算出一对字符串间的最小编辑次数，考虑到问题的特点，我们可以使用动态规划的思想来计算其最小编辑次数，根据维基百科：两个字符串 a=a1a2⋯an，b=b1b2⋯bm 的编辑距离递归计算公式如下：

其中，w表示增删改三种操作的权重，一般定义为：

w={1,0,若有操作无操作

di0=i 表示从

b′=b1⋯bi 删除为空的编辑次数；

d0j=j 表示从空插入成

a′=a1⋯aj 所需的编辑次数；

dij 则是对动态规划中分解子问题的过程。
仍以（1）中的两个字符串为例：
则编辑距离

d53=min⎧⎩⎨⎪⎪d43+5d52+3d42+0,删除操作,插入操作,替换操作，继续通过不断递归可以得出其编辑距离。

4、海明距离（hamming distance）
海明距离用于表示两个等长字符串对应位置不同字符的总个数，也即把一个字符串换成另一个字符串所需要的替换操作次数。根据定义，可以把海明距离理解为编辑距离的一种特殊情况，即只计算等长情况下替换操作的编辑次数。举个例子来讲，字符串“bob”与“pom”的海明距离为2，因为需要至少两次的替换操作两个字符串才能一致。海明距离较常用与二进制串上的操作，如对编码进行检错与纠错。在计算长字符串的相似性时可以通过hash函数将字符串映射成定长二进制串再利用海明距离来计算相似性。
海明距离的计算比较简单，通过一个循环来比较对应位置的字符是否相同即可。

5、Dice 距离
Dice距离用于度量两个集合的相似性，因为可以把字符串理解为一种集合，因此Dice距离也会用于度量字符串的相似性。此外，Dice系数的一个非常著名的使用即实验性能评测的F1值。Dice系数定义如下：

其中，X,Y表示两个集合，分子表示两个集合的相交操作后的长度，分母表示两个集合长度之和。以（1）中的例子来讲的话，

dice12=2×35+3=0.75 。若集合表示成向量的话，计算可以定义为：

这里写图片描述

其中，A,B表示两个向量。

6、Jaccard distance
杰卡德系数的定义如下，

可以看出与Dice系数的定义比较相似，分子部分是个两倍关系，Dice系数的分母比Jaccard系数的分母多减去了一项分子，即

|A∩B| 。
Jaccard与Dice之间具有一种转化关系：

J=D2−D ，

或：

D=2J1+J

7、J-W距离（Jaro–Winkler distance）
J-W距离也常用来度量两个字符串的相似性，它实际上 Jaro distance的一种变种。 Jaro distance距离属于编辑距离的一类，被用于记录链接领域来将异构数据源中的records链接到同义实体中，也可以用于拼写纠错。Jaro distance定义如下：