
编辑距离(Edit Distance)是字符串处理中的经典问题,它衡量了将一个字符串转换为另一个字符串所需的最少操作次数(插入、删除、替换)。这一问题在自然语言处理、拼写检查、DNA 序列比对等领域有着广泛应用。本文将用动态规划的思路,详细解析如何高效解决这一问题。
问题定义
给定两个单词 word1 和 word2,返回将 word1 转换成 word2 所使用的最少操作数。允许的操作有三种:
- 插入一个字符
- 删除一个字符
- 替换一个字符
动态规划思路
状态定义
我们定义 dp[i][j] 表示:将 word1 的前 i 个字符(word1[0...i-1])转换为 word2 的前 j 个字符(word2[0...j-1])所需的最少操作次数。
初始状态
- 当
i = 0(word1为空):需要插入j个字符才能得到word2的前j个字符,因此dp[0][j] = j。 - 当
j = 0(word2为空):需要删除i个字符才能得到空字符串,因此dp[i][0] = i。
状态转移
对于 dp[i][j],我们分两种情况讨论:
-
当前字符相等(
word1[i-1] == word2[j-1]):此时不需要额外操作,状态直接继承自dp[i-1][j-1],即dp[i][j] = dp[i-1][j-1]。 -
当前字符不相等:需从三种操作中选择最优解(取最小值):
- 插入操作:
dp[i][j-1] + 1(word1前i个字符已匹配word2前j-1个字符,插入一个字符匹配word2[j-1])。 - 删除操作:
dp[i-1][j] + 1(word1前i-1个字符已匹配word2前j个字符,删除word1[i-1])。 - 替换操作:
dp[i-1][j-1] + 1(将word1[i-1]替换为word2[j-1],使两者匹配)。因此,dp[i][j] = min(dp[i][j-1]+1, dp[i-1][j]+1, dp[i-1][j-1]+1)。
- 插入操作:
代码实现
class Solution {
public:
int minDistance(string word1, string word2) {
int n = word1.size(), m = word2.size();
// 初始化dp数组,dp[i][j]表示word1前i个字符转word2前j个字符的最少操作数
vector<vector<int>> dp(n + 1, vector<int>(m + 1, 0));
// 处理初始状态:其中一个字符串为空的情况
for (int i = 0; i <= n; i++) dp[i][0] = i;
for (int j = 0; j <= m; j++) dp[0][j] = j;
// 填充dp数组
for (int i = 1; i <= n; i++) {
for (int j = 1; j <= m; j++) {
if (word1[i - 1] == word2[j - 1]) {
// 字符相等,无需额外操作
dp[i][j] = dp[i - 1][j - 1];
} else {
// 字符不等,取三种操作的最小值
dp[i][j] = min({
dp[i][j - 1] + 1, // 插入
dp[i - 1][j] + 1, // 删除
dp[i - 1][j - 1] + 1// 替换
});
}
}
}
return dp[n][m];
}
};
复杂度分析
- 时间复杂度:\(O(n \times m)\),其中
n是word1的长度,m是word2的长度。我们需要填充一个(n+1)×(m+1)的二维数组,每个单元格的计算时间为 \(O(1)\)。 - 空间复杂度:\(O(n \times m)\),用于存储二维
dp数组。
示例验证
以示例 1 为例:word1 = "horse",word2 = "ros"
dp数组最终计算结果为dp[5][3] = 3,与题目输出一致(操作:替换h为r、删除r、删除e)。
以示例 2 为例:word1 = "intention",word2 = "execution"
dp数组最终计算结果为dp[9][9] = 5,与题目输出一致(操作:删除t、替换i为e、替换n为x、替换n为c、插入u)。
通过动态规划,我们高效地解决了编辑距离问题,这一思路不仅逻辑清晰,还能保证在合理时间和空间复杂度内处理大部分字符串转换场景。
8万+

被折叠的 条评论
为什么被折叠?



