编辑距离(edit distance)[No. 68]

本文详细介绍了如何计算两个字符串之间的编辑距离,即通过插入、删除或替换等操作将一个字符串转换为另一个字符串所需的最少操作次数。文章给出了具体实例,并提供了一个递推公式用于计算任意两个字符串的编辑距离。

问题:

给定两个字符串 A和B,由A转成B所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将A(kitten)转成B(sitting):
sitten (k→s)替换
sittin (e→i)替换
sitting (→g)插入

思路:

如果我们用 i 表示当前字符串 A 的下标,j 表示当前字符串 B 的下标。 如果我们用d[i, j] 来表示A[1, ... , i] B[1, ... , j] 之间的最少编辑操作数。那么我们会有以下发现:

1. d[0, j] = j;

2. d[i, 0] = i;

3. d[i, j] = d[i-1, j - 1] if A[i] == B[j]

4. d[i, j] = min(d[i-1, j - 1],d[i, j - 1],d[i-1, j]) + 1 if A[i] != B[j]

所以,要找出最小编辑操作数,只需要从底自上判断就可以了。伪代码如下:

int LevenshteinDistance(char s[1..m], char t[1..n])
{
  // for all i and j, d[i,j] will hold the Levenshtein distance between
  // the first i characters of s and the first j characters of t;
  // note that d has (m+1)x(n+1) values
  declare int d[0..m, 0..n]

  for i from 0 to m
    d[i, 0] := i // the distance of any first string to an empty second string
  for j from 0 to n
    d[0, j] := j // the distance of any second string to an empty first string

  for j from 1 to n
  {
    for i from 1 to m
    {
      if s[i] = t[j] then  
        d[i, j] := d[i-1, j-1]       // no operation required
      else
        d[i, j] := minimum
                   (
                     d[i-1, j] + 1,  // a deletion
                     d[i, j-1] + 1,  // an insertion
                     d[i-1, j-1] + 1 // a substitution
                   )
    }
  }

  return d[m,n]
}
参考: http://en.wikipedia.org/wiki/Levenshtein_distance


编辑距离问题是一个经典的动态规划问题,可以使用DP算法来解决。下面给出一个C++的代码实现,同时输出具体的编辑方法。 ```C++ #include <iostream> #include <string> #include <vector> using namespace std; int min(int a, int b, int c) { return min(min(a, b), c); } void printEditMethod(vector<vector<int>>& dp, string s1, string s2) { int m = s1.size(), n = s2.size(); vector<string> method; while (m > 0 && n > 0) { if (s1[m - 1] == s2[n - 1]) { method.push_back("no edit"); m--; n--; } else if (dp[m][n] == dp[m - 1][n - 1] + 1) { method.push_back("replace " + string(1, s2[n - 1])); m--; n--; } else if (dp[m][n] == dp[m - 1][n] + 1) { method.push_back("delete " + string(1, s1[m - 1])); m--; } else if (dp[m][n] == dp[m][n - 1] + 1) { method.push_back("insert " + string(1, s2[n - 1])); n--; } } while (m > 0) { method.push_back("delete " + string(1, s1[m - 1])); m--; } while (n > 0) { method.push_back("insert " + string(1, s2[n - 1])); n--; } for (int i = method.size() - 1; i >= 0; i--) { cout << method[i] << endl; } } int editDistance(string s1, string s2) { int m = s1.size(), n = s2.size(); vector<vector<int>> dp(m + 1, vector<int>(n + 1, 0)); for (int i = 0; i <= m; i++) { dp[i][0] = i; } for (int j = 0; j <= n; j++) { dp[0][j] = j; } for (int i = 1; i <= m; i++) { for (int j = 1; j <= n; j++) { if (s1[i - 1] == s2[j - 1]) { dp[i][j] = dp[i - 1][j - 1]; } else { dp[i][j] = min(dp[i - 1][j - 1], dp[i - 1][j], dp[i][j - 1]) + 1; } } } printEditMethod(dp, s1, s2); return dp[m][n]; } int main() { string s1 = "kitten"; string s2 = "sitting"; int distance = editDistance(s1, s2); cout << "The edit distance between " << s1 << " and " << s2 << " is " << distance << endl; return 0; } ``` 在输出编辑距离的同时,我们定义了一个`printEditMethod`函数,用于输出具体的编辑方法。该函数从`dp`表右下角开始,根据当前格子的值和相邻格子的值来确定编辑方法,直到达到左上角。最后,将方法按照逆序输出即可。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值