问题:给定连个字符串A、B,要求把A变成B,可以进行如下操作,问最少的操作次数可以使A变成B,即最小编辑距离?
操作:增加(插入)、删、替换
例:
A = ['m','a','r','t'],B = ['k','a','r','m','a']
输出:3(m换成k,t换成m,加上a)
问题分析:设m = len(A),n = len(B),我们考虑最后,操作完成后,A的长度也变成n,A[n-1] = B[n-1]
最优策略是让A[0,...,n-1]变成B[0,..,n-1],让A的最后一个字符变成B的最后一个字符,我们单向考虑,从A-->B,有:
case1:增加,A在最后插入B[n-1],则我们接下来要考虑的是如何把A[0,..,m-1]变成B[0,..,n-2]
case2:替换,A的最后一个字符替换成B[n-1],则考虑如何把A[0,..,m-2]变成B[0,..,n-2]
case3:删除,A删掉最后一个字符,则考虑如何把A[0,..,m-2]变成B[0,..,n-1]
case4:不变,A[n-1] = B[n-1],则考虑如何把A[0,..,m-2]变成B[0,..,n-2]
子问题:
要求A[0,...,n-1]变成B[0,..,n-1]的最小编辑距离,现在分别要求A[0,..,m-1]变成B[0,..,n-2]、
A[0,..,m-2]变成B[0,..,n-2]、A[0,..,m-2]变成B[0,..,n-1]的最小编辑距离。
转移方程:设f[i][j]表示A的前i个字符变成B的前j个字符的最小编辑距离,
f[i][j] = min{f[i][j-1]+1,f[i-1][j-1]+1,f[i-1][j]+1,f[i-1][j-1]|A[i-1] = B[j-1]}
min{ case1 , case2 , case3 , case4 }
初始情况:
f[0][j] = j[(j = 0,...,n)
f[i][0] = i(i = 0,...,m)
计算顺序:
f[0][0]...f[0][n]
.
.
.
f[m][0]...f[m][n]
答案:f[m][n]
时间复杂度O(mn),空间复杂度O(mn),同样可以优化到O(n)
代码及注释如下:
def edit_dis(A,B):
m,n = len(A),len(B)
f = [[0 for i in range(n+1)] for j in range(m+1)]
for i in range(m+1):
for j in range(n+1):
if i == 0:
f[i][j] = j
continue
if j == 0 :
f[i][j] = i
continue
# f[i][j] = min{f[i][j-1]+1,f[i-1][j-1]+1,f[i-1][j]+1,f[i-1][j-1]|A[i-1] = B[j-1]}
# min{ case1增加 , case2 替换, case3 删除, }
f[i][j] = min(f[i][j-1]+1 , f[i-1][j-1]+1 , f[i-1][j]+1)
#case4 不变
if A[i-1] == B[j-1]:
f[i][j] = min(f[i][j] , f[i-1][j-1])
return f[m][n]
A = ['m','a','r','t']
B = ['k','a','r','m','a']
print(edit_dis(A,B))
#答案:3
优化空间后的代码:只要把上述代码里的i改成old,i-1改成new即可,
def edit_dis(A,B):
m,n = len(A),len(B)
#只需开两行
f = [[0 for i in range(n+1)] for j in range(2)]
old,new= 0,1
for i in range(m+1):
old,new = new,old
for j in range(n+1):
if i == 0:
f[new][j] = j
continue
if j == 0 :
f[new][j] = i
continue
# f[i][j] = min{f[i][j-1]+1,f[i-1][j-1]+1,f[i-1][j]+1,f[i-1][j-1]|A[i-1] = B[j-1]}
# min{ case1增加 , case2 替换, case3 删除, }
f[new][j] = min(f[new][j-1]+1 , f[old][j-1]+1 , f[old][j]+1)
#case4 不变
if A[i-1] == B[j-1]:
f[new][j] = min(f[new][j] , f[old][j-1])
return f[new][n]
A = ['m','a','r','t']
B = ['k','a','r','m','a']
print(edit_dis(A,B))
#答案:3