51Nod 1138 编辑距离

最新推荐文章于 2019-03-20 11:11:50 发布

原创最新推荐文章于 2019-03-20 11:11:50 发布 · 239 阅读

0 ·

CC 4.0 BY-SA版权

51Nod 同时被 3 个专栏收录

45 篇文章

订阅专栏

------动态规划------

29 篇文章

订阅专栏

字符串

11 篇文章

订阅专栏

本文详细介绍了编辑距离（Levenshtein距离）的概念及其计算方法，通过实例解释了如何使用动态规划来求解两个字符串之间的编辑距离，并给出了具体的C/C++实现代码。

1183 编辑距离
基准时间限制：1 秒空间限制：131072 KB 分值: 0 难度：基础题
收藏
关注
编辑距离，又称Levenshtein距离（也叫做Edit Distance），是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。
例如将kitten一字转成sitting：
sitten （k->s）
sittin （e->i）
sitting （->g）
所以kitten和sitting的编辑距离是3。俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。
给出两个字符串a,b，求a和b的编辑距离。
Input

第1行：字符串a(a的长度 <= 1000)。
第2行：字符串b(b的长度 <= 1000)。

Output

输出a和b的编辑距离

Input示例

kitten
sitting

Output示例

题意：，，，，，

思路：动态规划。。。可根据自然算法（我称为表格法）来算；

自然语言表达

比如要计算cafe和coffee的编辑距离。cafe→caffe→coffe→coffee

先创建一个6×8的表（cafe长度为4，coffee长度为6，各加2）

（1）：

	c	o	f	f	e	e

c
a
f
e					表	1

接着，在如下位置填入数字（表2）：

		c	o	f	f	e	e
	0	1	2	3	4	5	6
c	1
a	2
f	3
e	4					表	2

从3,3格开始，开始计算。取以下三个值的最小值：

如果最上方的字符等于最左方的字符，则为左上方的数字。否则为左上方的数字+1。（对于3,3来说为0）
左方数字+1（对于3,3格来说为2）
上方数字+1（对于3,3格来说为2）

因此为格3,3为0（表3）

		c	o	f	f	e	e
	0	1	2	3	4	5	6
c	1	0
a	2
f	3
e	4

循环操作，推出下表

		c	o	f	f	e	e
	0	1	2	3	4	5	6
c	1	0	1	2	3	4	5
a	2	1	1	2	3	4	5
f	3	2	2	1	2	3	4
e	4	3	3	2	2	2	3

取右下角，得编辑距离为3。

C/C++伪代码

动态规划经常被用来作为这个问题的解决手段之一。

整数 Levenshtein距离(字符串 str1[1..m], 字符串 str2[1..n])

//声明变量， d[i , j]用于记录str1[1...i]与str2[1..j]的Levenshtein距离

int d[0..m, 0..n]

//初始化

for i from 0 to m

d[i, 0] := i

for j from 0 to n

d[0, j] := j

//用动态规划方法计算Levenshtein距离

for i from 1 to m

for j from 1 to n

{

//计算替换操作的代价，如果两个字符相同，则替换操作代价为0，否则为1

if str1[i]== str2[j]then cost := 0

else cost := 1

//d[i,j]的Levenshtein距离，可以有

d[i, j] := minimum(

d[i-1, j] + 1//在str1上i位置删除字符str1[i]（或者在str2上i位置插入字符str1[i]）

d[i, j-1] + 1//在str1上j位置插入字符str2[j] ^[1] （或者在str2上j位置删除字符str2[j]）

d[i-1, j-1] + cost // 替换操作

)

}

//返回d[m, n]

return d[m, n]

以上均为读者百度到的，嘿嘿。。。。
由此我们可以得到方程的初值：dp[i][0]=i;dp[0][j]=j;
状态转移方程为：dp[i][j]=min(dp[i-1][j-1]+(a[i-1]==b[j-1]?0:1),(min(dp[i-1][j],dp[i][j-1])+1));
下面附上代码：

#include<bits/stdc++.h>
using namespace std;
char a[1005],b[1005];
int dp[1005][1005];
int main()
{
	while(~scanf("%s%s",a,b))
	{
		int l1=strlen(a);
		int l2=strlen(b);
		for(int i=0;i<=l1;i++)
			dp[i][0]=i;
		for(int i=0;i<=l2;i++)
			dp[0][i]=i;
		for(int i=1;i<=l1;i++)
		{
			for(int j=1;j<=l2;j++)
			{
				dp[i][j]=min(dp[i][j-1],dp[i-1][j])+1;
				dp[i][j]=min(dp[i][j],dp[i-1][j-1]+(a[i-1]==b[j-1]?0:1));
			}
		} 
		printf("%d\n",dp[l1][l2]);
	}
	return 0;
}